Text Encoding Initiative Mats Dahlström | Digitalisering av kulturarvet | Januari 2008
TEI: bakgrund Behov av uniformt system för textkodning och utbyte inom humaniora Till 80-talet användes proprietära representationssystem Behov av: –Återanvändbarhet –Interoperabilitet –Plattforms, hård- och mjukvaruoberoende –Portabilitet –Kollaborationsmöjligheter –Ett verktyg för flera discipliner / vetenskaper inom humaniora –TEI-konsortiet
TEI: utveckling 1986: SGML / ISO 1987: Poughkeepsie principles 1990: P1 (SGML) 1992: P2 1994: P3 : 600+ element 1995: TeiLite : 121 element 1999: P3rev 2000: TEI Consortium 2001: P4 : XML (viss SGML) 2001: TeixLite : XML 2005: XML Schema (?): P5 (ingen SGML): -500 element
Hur används TEI? För kodning av: –texter på olika språk, av olika ålder och epoker, i olika litterära och bibliografiska genrer (texttyper) –såväl “continuous material” som “discontinuous material” (t.ex. lexika och korpora)
Varför så omfattande? TEI uppbyggt kring riktlinjer, regler och rekommendationer istället för standard eftersom –Textkodning innebär representation och tolkning –Frihet för forskaren att uttrycka sin teori om texten genom att göra olika val Riktlinjerna att betrakta som referensmanual
Vad innehåller TEI? Inte en enda given DTD, utan en mängd DTD-fragment (tag sets), som kan kombineras Vissa nödvändiga (required), andra grundläggande (basic) och vissa valfria (optional)
Sugen på pizza? Core tag sets Base tag sets Additional tag sets
Core tag set Nödvändigt Innefattar bl.a. (kapitel 5 i ”Guidelines”) –Jämförbart med titelsidan i tryckt bok Gemensamma element för alla TEI- dokument (kapitel 6)
Base tag sets Prose Verse Drama Speech Dictionaries Terminology General base Mixed base
Additional tag sets Urvalsförfarande och ej nödvändiga –Länkar –Figurer –Analyselement (mycket enkla) –Textkritiska möjligheter (apparat) –Namn och datum
Prologen XML-deklaration Dokumenttypsdeklaration <!DOCTYPE TEI.2 PUBLIC ”-//TEI P4//DTD Main Document Type//EN” /masterx.dtd>
[Metadata] [Preliminärer, t.ex. titelsidans text och förord] [Huvudtexten] [Subsidiärer, t.ex. appendix, epilog och liknande]
I ett TEI-dokument ingår alltid [rotelementet] exv. teiHeader text body Dessa kan inte innehålla text (PCDATA)
TEI Lite Den mest populära DTD:n är TEI Lite 121 fasta element Med bara 20 % av elementen täcks 90 % av TEI-användarnas behov i 90 % av fallen 80 % av projekten TeixLite: den XML-kompatibla versionen
TEI Lite – prolog, t.ex.:
med rotelement, header och text...
...
... innehåller ingen ‘text’, utan andra element
TEI:s textstruktur teiHeader tei.2 teiCorpus.2 tei.2 teiHeader TEI.2 back front text body div group div back front text body er
’body’ kan inte innehålla text, dvs PCDATA (parsed character data). I normalfallet innehåller ’body’ ett antal avsnitt, innehållna i ett antal ’div’-element, vilka i sin tur vanligen innehåller ett antal stycken. Kap. 35 i Guidelines specificerar vilka element som är tillåtna, eller nödvändiga, i vilka element.
“Preliminärer” ss titelsidor, förordstexter osv – dvs den explicita informationen i förlagan......
sektionsindelning av text: Bok 1 Kapitel 1 Kapitel 2
Attribut i Elementet ’div’ är mångtydigt, vi vet inte (utifrån uppmärkningen blott och bart) vad för en typ av avsnitt det handlar om... Vi kan också vilja indikera en kapitelnumrering...
//...// //...// //...//
sektionsindelning av text: Bok 1 Kapitel 1 Kapitel 2
Globala attribut Kan tilldelas alla element id för unik identifikation n för (icke-unikt) namn eller nummer rend för återgivning lang för språk
under Prose: stycken ( ) Verse: rader ( ), ibland grupperade hierarkiskt ( ) Drama: repliker ( ) som innehåller t.ex., och
prosaexempel: Skulle vi ha valt HTML som märkspråk för textkodningen hade du visserligen fått en snabbare och mer direkt väg från uppmärkning till publicering. Men den hade också varit mindre ut- och påbyggbar.
poesiexempel 1 Summer grass — all that's left of warriors' dreams.
poesiexempel 1 Summer grass — all that's left of warriors' dreams.
poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.
poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.
“Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says: - I wish to the Lord, Mr. Wilson, that I was a red-headed man” Anförande
Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:— I wish to the Lord, Mr. Wilson, that I was a red-headed man. Anförande Använd attributet who för att ange vem som talar Anföranden kan nästas i andra anföranden..... men inte över styckegränser (överlappning!)
My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? Namn och andra refereringar Elementet (referring string) kan användas för namn eller referens
My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? Namn och andra refereringar Elementet (referring string) kan användas för namn eller referens
Både och Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be...
Både och Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be...
sid- och radbrytningar And bathed every veyne in swich licour Of which vertu engendred is the flour; s. 23 Whan Zephirus eek with his sweete breeth
sid- och radbrytningar : sidbrytning : radbrytning And bathed every veyne in swich licour Of which vertu engendred is the flour; Whan Zephirus eek with his sweete breeth
Today is Tuesday 29th. One afternoon in late November.. One afternoon in <dateRange from=' ' to=' exact='to'> late November.. attribut kan precisera och dito med, och
Överlappande hierarkier Välformad XML Men dokument är komplexa saker och flera parallella hierarkier kan identifieras, t.ex. –kapitel/ sektion / stycke / fras –ark / blad / sida / kolumn Repliker och versrader
(Å): Peer, du lyver! (P): Nei, jeg gjør ei! (Å): Nå, så bann på det er sant! (P): Hvorfor banne? (Å): Tvi, du tør ei! Alt i hop er tøv og tant!
Peer, du lyver! Nei, jeg gjør ei! Nå, så bann på det er sant! Hvorfor banne? Tvi, du tør ei! Alt i hop er tøv og tant.
to get or not Återge emfatiskt markerade ord med när du inte kan eller vill specificera anledningen till emfasen. Men om du kan identifiera varför ordet är betonat, bör du tillgripa ett mer specifikt element, t.ex.:,,,
Validering Hur vet vi att vi använt TEI Lite, eller vår egen TEI-tillämpning, på ett syntaktiskt korrekt sätt? –Online XML-validatorer: Brown University –Editorer med inbyggd validering: JEDIT, OXYGEN m fl Hur vet vi att vi använt TEI Lite, eller vår egen TEI-tillämpning, på ett semantiskt korrekt sätt? –Genom dokumentation!
Behovspröva alltid Är det motiverat med textdigitalisering och sofistikerad uppmärkning? Varför? Vilka alternativ finns? Är det motiverat med just TEI? Varför? Vilka alternativ finns? Är det motiverat med TEI Lite, eller behöver jag producera ngn annan delmängd av TEI för mina ändamål? Lavagnino 2006