Presentation laddar. Vänta.

Presentation laddar. Vänta.

Text Encoding Initiative Mats Dahlström | Digitalisering av text | April 2005.

Liknande presentationer


En presentation över ämnet: "Text Encoding Initiative Mats Dahlström | Digitalisering av text | April 2005."— Presentationens avskrift:

1 Text Encoding Initiative Mats Dahlström | Digitalisering av text | April 2005

2 TEI: bakgrund Behov av uniformt system för textkodning och utbyte inom humaniora Till 80-talet användes proprietära representationssystem Behov av: –Återanvändbarhet –Interoperabilitet –Plattforms, hård- och mjukvaruoberoende –Portabilitet –Kollaborationsmöjligheter –Ett verktyg för flera discipliner / vetenskaper inom humaniora –TEI-konsortiet http://www.tei-c.org

3 TEI: utveckling 1986: SGML / ISO 1987: Vassar College, Poughkeepsie principles 1990: P1 (SGML) 1992: P2 1994: P3 : 600 + elements 1995: TeiLite : 121 elements 1999: P3rev 2000: TEI Consortium 2001: P4 : XML 2001: TeixLite : XML 2005: P5 : XML. XML Schema.

4 Hur används TEI? För kodning av: –texter på olika språk, av olika ålder och epoker, i olika litterära och bibliografiska genrer (texttyper) –såväl “continuous material” som “discontinuous material” (t.ex. lexika och korpora)

5 Varför så omfattande? TEI uppbyggt kring riktlinjer, regler och rekommendationer istället för standard eftersom –Textkodning innebär representation och tolkning –Frihet för forskaren att uttrycka sin teori om texten genom att göra olika val Riktlinjerna att betrakta som referensmanual

6 Vad innehåller TEI? Inte en enda given DTD, utan en mängd DTD-fragment (tag sets), som kan kombineras Vissa nödvändiga (required), andra grundläggande (basic) och vissa valfria (optional)

7 Sugen på pizza? Core tag sets Base tag sets Additional tag sets http://www.tei-c.org/pizza.html

8 Core tag set Nödvändigt Innefattar bl.a. (kapitel 5 i ”Guidelines”) –Jämförbart med titelsidan i tryckt bok Gemensamma element för alla TEI- dokument (kapitel 6)

9 Base tag sets Prose Verse Drama Speech Dictionaries Terminology General base Mixed base

10 Additional tag sets Urvalsförfarande och ej nödvändiga –Länkar –Figurer –Analyselement (mycket enkla) –Textkritiska möjligheter (apparat) –Namn och datum

11

12 Prologen XML-deklaration Dokumenttypsdeklaration <DOCTYPE TEI.2 PUBLIC ”-//TEI P4//DTD Main Document Type//EN” http://www.adm.hb.se/personal/mg/di g/XMLLab/masterx.dtd>

13 [Metadata] [Preliminärer, t.ex. titelsidans text och förord] [Huvudtexten] [Subsidiärer, t.ex. appendix, epilog och liknande]

14 I ett TEI-dokument ingår alltid [rotelementet] exv. teiHeader text body Dessa kan inte innehålla text (PCDATA)

15 TEI Lite Den mest populära DTD:n är TEI Lite 121 fasta element Med bara 20 % av elementen täcks 90 % av TEI-användarnas behov i 90 % av fallen 80 % av projekten TeixLite: den XML-kompatibla versionen http://www.tei-c.org/Lite/

16 TEI Lite – prolog, t.ex.:

17 med rotelement, header och text...

18 ... tar vi upp i morgon vill du förbereda dig, läs litteraturen om detta och titta på övningsmaterialet

19 ...

20 ... innehåller ingen ‘text’, utan andra element

21 TEI:s textstruktur teiHeader tei.2 teiCorpus.2 tei.2 teiHeader TEI.2 back front text body div group div back front text body er

22 “Preliminärer” ss titelsidor, förordstexter osv – dvs den explicita informationen i förlagan......

23 sektionsindelning av text: Bok 1 Kapitel 1 Kapitel 2

24 sektionsindelning av text: Bok 1 Kapitel 1 Kapitel 2

25 under Prose: stycken ( ) Verse: rader ( ), ibland ytterligare indelade hierarkiskt ( ) Drama: repliker ( ) som innehåller t.ex., och

26 prosaexempel: Skulle vi ha valt HTML som märkspråk för textkodningen hade du visserligen fått en snabbare och mer direkt väg från uppmärkning till publicering. Men den hade också varit mindre ut- och påbyggbar.

27 poesiexempel 1 Summer grass — all that's left of warriors' dreams.

28 poesiexempel 1 Summer grass — all that's left of warriors' dreams.

29 poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.

30 poesiexempel 2 This Be The Verse They fuck you up, your mum and dad. They may not mean to, but they do. They fill you with the faults they had And add some extra, just for you.

31 “Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says: - I wish to the Lord, Mr. Wilson, that I was a red-headed man” Anförande

32 Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:— I wish to the Lord, Mr. Wilson, that I was a red-headed man. Anförande Använd attributet who för att ange vem som talar Anföranden kan nästas i andra anföranden..... men inte över styckegränser (överlappning!)

33 My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? Namn och andra refereringar Elementet (referring string) kan användas för namn eller referens

34 My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? Namn och andra refereringar Elementet (referring string) kan användas för namn eller referens

35 Både och Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be...

36 Både och Mr. Joseph Andrews, the hero of our ensuing history, was esteemed to be...

37 sid- och radbrytningar And bathed every veyne in swich licour Of which vertu engendred is the flour; ------------------------ s. 23 Whan Zephirus eek with his sweete breeth

38 sid- och radbrytningar : sidbrytning : radbrytning And bathed every veyne in swich licour Of which vertu engendred is the flour; Whan Zephirus eek with his sweete breeth

39 Today is Tuesday 29th. One afternoon in late November.. One afternoon in <dateRange from='1994-11-15' to='1994-11-30 exact='to'> late November.. attribut kan precisera och dito med, och

40 (Å): Peer, du lyver! (P): Nei, jeg gjør ei! (Å): Nå, så bann på det er sant! (P): Hvorfor banne? (Å): Tvi, du tør ei! Alt i hop er tøv og tant!

41 Överlappande hierarkier Välformad XML Men dokument är komplexa saker och flera parallella hierarkier kan identifieras, t.ex. –kapitel/ sektion / stycke / fras –ark / blad / sida / kolumn Repliker och versrader

42 Bilder och grafik

43 Mr Fezziwig's Ball A Cruikshank engraving showing Mr Fezziwig leading a group of revellers. till exempel...

44 Globala attribut Kan tilldelas alla element id för unik identifikation n för (icke-unikt) namn eller nummer rend för återgivning lang för språk

45 acknowledgements Thanks to the following for ideas, slides & texts: –Mikael Gunnarsson –Veronica Johansson –Edward Vanhoutte –Lou Burnard


Ladda ner ppt "Text Encoding Initiative Mats Dahlström | Digitalisering av text | April 2005."

Liknande presentationer


Google-annonser