Text Encoding Initiative Mats Dahlström | Digitalisering av kulturarvet | Januari 2008.

Slides:



Advertisements
Liknande presentationer
Kliv in i projektet – delaktighet i projekt Steven Kabagambe.
Advertisements

G RUNDLÄGGANDE XML OCH CSS Mikael Gunnarsson och Helena Francke TLS, HyrData, Stockholm mars 2003.
Omvärld och invärld två bilder av vad biblioteken har att kämpa för
Your Name I am Perfect and loved as i am Everybody Fits I Focus on my strenghts I am worth $ _________ a month Focus on your own goal 15 min SeeLiveFeel.
Ing-form På engelska använder man -ing-form:
Den engelska ing-formen i presens
Textkodning: XML ”Having trouble de-coding the text, Albert?”
XHTML 1 Designa din egen webbsida. Idag  Struktur och uppmärkning  Vad är (X)HTML?  Element, taggar och attribut  Validering.
HEAD – HUVUDET I huvudet hittar du information om dokumentets titel, sökord, referenser till stildokument och annan information som normalt inte visas.
Stilark: CSS Digitalisering av text April 2005 Mats Dahlström.
Textkodning: XML ”What’s the matter, Albert? Having trouble decoding the text? ”
Först lite addenda till gårdagen …. (tomt element) eller (med elementinnehåll) attributet target för att identifiera ett mål Korsreferenser See especially.
Text Encoding Initiative Mats Dahlström | Digitalisering av text | April 2005.
ROLF BECKMAN 9/ INTEGRATION FN: The goal of social integration is to create “a more stable, safe and just society for all”, in which every individual,
XSLT – en introduktion Digitalisering av kulturarvet.
Who används för att fråga efter personer
XSLT – en introduktion Elektronisk publicering.
Presens och imperfekt av have. Translate! Jag har huvudvärk. Hon har en röd Volvo. De har två barn tillsammans.
TEI Header Mats Dahlström Digitalisering av kulturarvet April 2007.
Välkomna till Musiken Sång Spela keyboard Eye of the tiger Ackord, bas
Textkritik och utgivning - digitalisering som transponering Mats Dahlström | Digitalisering av kulturarvet | Mars 2008.
Diskreta, deterministiska system Projekt 1.2; Vildkatt
För att uppdatera sidfotstexten, gå till menyfliken: Infoga | Sidhuvud och sidfot Fondbolagsträff 2015.
EXtensible Markup Language Digitalisering av kulturarvet
XHTML & CSS Introduktion Erik Nahkala
Daniel Nylén, Institutionen för Informatik Organisation 2 C.1 Systemdesign.
Kursexempel Tekniska projekt och rapportskrivning.
TEXT – GRUNDERNA Det huvudsakliga innehållet i XHTML- dokument är text – brödtext, rubriker, avgränsande linjer.
Olof Lundström, M Sc Thesis. Bakgrund Forskningskommersialisering är komplext Bayh-Dole Act & Lärarundantaget OTL – Office of Technology Licensing.
Hjälper huvudverbet att ange tid eller modalitet
Dokumentarkitektur 29 augusti 2007 Standard, boring Mats Dahlström Kunskapsorganisation Dokumentrepresentation.
IV1023 ht2013 nikos dimitrakas KTH/ICT/SCS 1 IV1023 ht2013 Avancerad Datahantering med XML XSLT nikos dimitrakas Rum 8522 Läsanvisningar.
XSLT 2 Digitalisering av kulturarvet.
”National Champions” Nordiska konkurrensnätverket Bergen 2008 Hans Henrik Lidgard.
Motivation is the direction and intensity of effort
XSLT 1 Digitalisering av kulturarvet.
E-böcker på vetenskapliga bibliotek, Göteborg, Forskningsbiblioteket som utgivare av e-böcker Carin Björklund Göteborgs universitetsbibliotek,
Svenska Judoförbundet Stockholms Judoförbund - Klubbmöte 13/11-12 Utbildning.
Pop & ROCK-historia En sammanfattning av populärmusikens rötter och förgreningar fram till och med 80-talet.
ABB och Caterpillar 1 Marcus Larsson marla419. Problem CAT-ABB sour relationship: CAT felt ABB Turbo Systems held them hostage. In CAT:s view ABB dictated.
 Who frågar efter en persons (eller personers) identitet (vem dem är).  Who is he?  Who are they?  Who is coming?
To practise speaking English for 3-4 minutes Genom undervisningen i ämnet engelska ska eleverna ges förutsättningar att utveckla sin förmåga att: formulera.
Textkodning 1 Dokumentrepresentation. Idag  Struktur och uppmärkning  Vad är (X)HTML?  Element, taggar och attribut  Standarder.
“Be” (vara) i presens 1. I 2. You 3. He, she, it 1. We 2. You 3. They.
Informationsinfrastruktur Välkommen till ett samarbete för att effektivisera åtkomst till dokument mellan och inom organisationer.
Dokument Process (DP) Metadata Ett standardiseringssamarbete för att: Att effektivisera åtkomst till verksamhetsdokument mellan och inom organisationer.
Don´t just try! Do! Emma Nääs
Skolkör år 4-9 Skolkören övar inför avlsutningen.
Advice from Bronx Best Real Estate Attorney. Jagiani Law office of New York has been successfully working as divorce attorney & Real estate attorney for.
Digitization and Management Consulting
Why you should consider hiring a real estate attorney!
Law abiding grounds of filing a divorce Jagianilaw.com.
För att vi ska kunna beskriva...
GDPR - General Data Protection Regulation
Politisk kommunikation II
Bringapillow.com. Online Dating- A great way to find your love! The words ‘Love’ and ‘Relationship’ are close to every heart. Indeed, they are beautiful!
The Online Way to Engagement and Wedding Jewelry! Pearlleady.com.
Course info.
Meeting singles had never been so easy before. The growing dating sites for singles have given a totally new approach to getting into relationships. ‘Singles.
Hoppas det här går hem ! Bildspelet vecka 3 5 BE ® BrucElvis
Left hand side is the P (Plan) Right hand side is DSA (Do Study Act)
Affiliate Meny – Business Partner
Formal Languages, Automata and Models of Computation
My role model.
Pearlleady.com Attractive Graduation and Wedding Gifts Online.
How to Buy Engagement Rings for Women Online?. Buying engagement rings for women or tiffany celebration rings from the online market could be a bit challenging.
You Must Take Marriage Advice to Stop Divorce! Dontgetdivorced.com.
Vad gör jag om jag vill forska med SPORs data?
Possessiva pronomen.
Season 2018.
Presentationens avskrift:

Text Encoding Initiative Mats Dahlström | Digitalisering av kulturarvet | Januari 2008

TEI: bakgrund Behov av uniformt system för textkodning och utbyte inom humaniora Till 80-talet användes proprietära representationssystem Behov av: –Återanvändbarhet –Interoperabilitet –Plattforms, hård- och mjukvaruoberoende –Portabilitet –Kollaborationsmöjligheter –Ett verktyg för flera discipliner / vetenskaper inom humaniora –TEI-konsortiet

TEI: utveckling 1986: SGML / ISO 1987: Poughkeepsie principles 1990: P1 (SGML) 1992: P2 1994: P3 : 600+ element 1995: TeiLite : 121 element 1999: P3rev 2000: TEI Consortium 2001: P4 : XML (viss SGML) 2001: TeixLite : XML 2005: XML Schema (?): P5 (ingen SGML): -500 element

Hur används TEI? För kodning av: –texter på olika språk, av olika ålder och epoker, i olika litterära och bibliografiska genrer (texttyper) –såväl “continuous material” som “discontinuous material” (t.ex. lexika och korpora)

Varför så omfattande? TEI uppbyggt kring riktlinjer, regler och rekommendationer istället för standard eftersom –Textkodning innebär representation och tolkning –Frihet för forskaren att uttrycka sin teori om texten genom att göra olika val Riktlinjerna att betrakta som referensmanual

Vad innehåller TEI? Inte en enda given DTD, utan en mängd DTD-fragment (tag sets), som kan kombineras Vissa nödvändiga (required), andra grundläggande (basic) och vissa valfria (optional)

Sugen på pizza? Core tag sets Base tag sets Additional tag sets

Core tag set Nödvändigt Innefattar bl.a. (kapitel 5 i ”Guidelines”) –Jämförbart med titelsidan i tryckt bok Gemensamma element för alla TEI- dokument (kapitel 6)

Base tag sets Prose Verse Drama Speech Dictionaries Terminology General base Mixed base

Additional tag sets Urvalsförfarande och ej nödvändiga –Länkar –Figurer –Analyselement (mycket enkla) –Textkritiska möjligheter (apparat) –Namn och datum

Prologen XML-deklaration Dokumenttypsdeklaration <!DOCTYPE TEI.2 PUBLIC ”-//TEI P4//DTD Main Document Type//EN” /masterx.dtd>

[Metadata] [Preliminärer, t.ex. titelsidans text och förord] [Huvudtexten] [Subsidiärer, t.ex. appendix, epilog och liknande]

I ett TEI-dokument ingår alltid [rotelementet] exv. teiHeader text body Dessa kan inte innehålla text (PCDATA)

TEI Lite Den mest populära DTD:n är TEI Lite 121 fasta element Med bara 20 % av elementen täcks 90 % av TEI-användarnas behov i 90 % av fallen 80 % av projekten TeixLite: den XML-kompatibla versionen

TEI Lite – prolog, t.ex.:

med rotelement, header och text...

...

... innehåller ingen ‘text’, utan andra element

TEI:s textstruktur teiHeader tei.2 teiCorpus.2 tei.2 teiHeader TEI.2 back front text body div group div back front text body er

’body’ kan inte innehålla text, dvs PCDATA (parsed character data). I normalfallet innehåller ’body’ ett antal avsnitt, innehållna i ett antal ’div’-element, vilka i sin tur vanligen innehåller ett antal stycken. Kap. 35 i Guidelines specificerar vilka element som är tillåtna, eller nödvändiga, i vilka element.

“Preliminärer” ss titelsidor, förordstexter osv – dvs den explicita informationen i förlagan......

sektionsindelning av text: Bok 1 Kapitel 1 Kapitel 2

Attribut i Elementet ’div’ är mångtydigt, vi vet inte (utifrån uppmärkningen blott och bart) vad för en typ av avsnitt det handlar om... Vi kan också vilja indikera en kapitelnumrering...

//...// //...// //...//

sektionsindelning av text: Bok 1 Kapitel 1 Kapitel 2

Globala attribut Kan tilldelas alla element id för unik identifikation n för (icke-unikt) namn eller nummer rend för återgivning lang för språk

under Prose: stycken ( ) Verse: rader ( ), ibland grupperade hierarkiskt ( ) Drama: repliker ( ) som innehåller t.ex., och

prosaexempel: Skulle vi ha valt HTML som märkspråk för textkodningen hade du visserligen fått en snabbare och mer direkt väg från uppmärkning till publicering. Men den hade också varit mindre ut- och påbyggbar.

poesiexempel 1 Summer grass — all that's left of warriors' dreams.

poesiexempel 1 Summer grass — all that's left of warriors' dreams.

poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.

poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.

“Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says: - I wish to the Lord, Mr. Wilson, that I was a red-headed man” Anförande

Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:— I wish to the Lord, Mr. Wilson, that I was a red-headed man. Anförande Använd attributet who för att ange vem som talar Anföranden kan nästas i andra anföranden..... men inte över styckegränser (överlappning!)

My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? Namn och andra refereringar Elementet (referring string) kan användas för namn eller referens

My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? Namn och andra refereringar Elementet (referring string) kan användas för namn eller referens

Både och Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be...

Både och Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be...

sid- och radbrytningar And bathed every veyne in swich licour Of which vertu engendred is the flour; s. 23 Whan Zephirus eek with his sweete breeth

sid- och radbrytningar : sidbrytning : radbrytning And bathed every veyne in swich licour Of which vertu engendred is the flour; Whan Zephirus eek with his sweete breeth

Today is Tuesday 29th. One afternoon in late November.. One afternoon in <dateRange from=' ' to=' exact='to'> late November.. attribut kan precisera och dito med, och

Överlappande hierarkier Välformad XML Men dokument är komplexa saker och flera parallella hierarkier kan identifieras, t.ex. –kapitel/ sektion / stycke / fras –ark / blad / sida / kolumn Repliker och versrader

(Å): Peer, du lyver! (P): Nei, jeg gjør ei! (Å): Nå, så bann på det er sant! (P): Hvorfor banne? (Å): Tvi, du tør ei! Alt i hop er tøv og tant!

Peer, du lyver! Nei, jeg gjør ei! Nå, så bann på det er sant! Hvorfor banne? Tvi, du tør ei! Alt i hop er tøv og tant.

to get or not Återge emfatiskt markerade ord med när du inte kan eller vill specificera anledningen till emfasen. Men om du kan identifiera varför ordet är betonat, bör du tillgripa ett mer specifikt element, t.ex.:,,,

Validering Hur vet vi att vi använt TEI Lite, eller vår egen TEI-tillämpning, på ett syntaktiskt korrekt sätt? –Online XML-validatorer: Brown University –Editorer med inbyggd validering: JEDIT, OXYGEN m fl Hur vet vi att vi använt TEI Lite, eller vår egen TEI-tillämpning, på ett semantiskt korrekt sätt? –Genom dokumentation!

Behovspröva alltid Är det motiverat med textdigitalisering och sofistikerad uppmärkning? Varför? Vilka alternativ finns? Är det motiverat med just TEI? Varför? Vilka alternativ finns? Är det motiverat med TEI Lite, eller behöver jag producera ngn annan delmängd av TEI för mina ändamål? Lavagnino 2006