Textkodning: XML ”What’s the matter, Albert? Having trouble decoding the text? ”
XML Utökar begränsningarna för vad som är möjligt, jämfört med SGML (och fr.a. HTML) –därigenom ökar förutsägbarheten Beskrivna dokumentmodeller (dvs DTDer) inte längre absolut nödvändiga -> ett dokument är giltigt (valid) eller välformat. Har genererat en stor mängd nya tillämpningar
XML-teknik XML Xlink & XPointer XSL: –XSLT –XPath –XSL-FO
XML Egentligen inget eget märkspråk, snarare syntaktiska regler för konstruktion av märkspråk (eller märkscheman) Med XML kan vi själva skapa olika märkscheman för olika syften Mer makt åt oss textproducenter
XML Ingen ”äger” XML – plattformsoberoende Stöd (dvs XML-parser) i yngre webbläsare W3C: HTML, XHTML, XML, CSS, validering
SGML - HTML, XML - XHTML specificitet generalitet SGML (1986) HTML (ca 1992) XML (1998) XHTML (2000)
XHTML HTML omdefinierad som en XML- tillämpning Skillnader HTML ↔ XHTML –utbyggbart –egna märken –krav på giltigt, välformat –exakthet i notationen –v/g –tomma element måste vara stängda
Dokumentinstansens komponenter (SGML familjen) | (Ej uttömmande) Text med markup (*.sgml) En eller flera DTDer (*.dtd) –I fråga om XML: ej nödvändig, kan också ersättas med t ex XML Schema En eller flera stilmallar (ex: *.css) –I fråga om XML: XSL Ev. externa entiteter (ex: *.jpg *.gif *.png)
Grundläggande komponenter i ett XML-dokument Prologen Element Attribut och attributvärden Entiteter (CDATA i kommentarer)
Processinstruktioner, dokumenttypsdeklarationer
Prologen The SICK ROSE O Rose thou art sick. The invisible worm, That flies in the night In the howling storm: …
Element Par: Undantag tomma element: Versaler / gemener
attribut The SICK ROSE O Rose thou art sick. The invisible worm, That flies in the night In the howling storm: …
ett eller flera attribut
Entitetsreferenser LE BATEAU IVRE Comme je descendais des Fleuves impassibles, Je ne me sentis plus guidé par les haleurs: Des Peaux-rouges criards les avaient pris pour cibles, Les ayant cloués nus aux poteaux de couleurs. …
entiteter En viss teckensekvens har fördefinierats (i DTD:n) och givits ett namn. Vanligen för att representera tecken som annars kan “riskeras” Ibland även för att generera kortare eller längre text: genom att bara referera till namnet komprimerar man koden och spar arbete Refererar till externa data såsom grafik Behövs inte minst när märkenas och elementinnehållens notation kolliderar (<)
entitetsexempel é = é = é ü = ü = ü &columbo; = referens till en extern resurs, i det här fallet en text om TV-detektiven Columbo I DTD:n:
Kommentarer The SICK ROSE O Rose thou art sick. The invisible worm, That flies in the night In the howling storm: Has found out thy bed Of crimson joy: And his dark secret love Does thy life destroy.
Rotelement The SICK ROSE O Rose thou art sick. The invisible worm, That flies in the night In the howling storm: Has found out thy bed Of crimson joy: And his dark secret love Does thy life destroy.
Ett XML- dokument kan vara välformat eller giltigt
Välformad XML Versaler / gemener Minst ett element Alltid ett rotelement Elementen bäddas in i strikt hierarkiska strukturer (OHCO) – tänk träd och filstrukturer Elementnamnen i start- och slutmärke matchar varandra Attributnamn förekommer blott en gång i startmärket Attributvärden inom citattecken Attributvärden refererar inte till externa entiteter (annat än till DTD:n) Entiteter deklareras
Giltig XML En välformad XML-fil som använder en dokumentypsdeklaration för att referera till en DTD och sedan följer denna DTD
Dokumenttypsdeklaration referens till rotelementet TEI.2 publik identifierare referens till en särskild dtd-fil med deklarationer av TEI-dokumentets element, attribut och entiteter
Dokumenttypsdeklaration Philip Larkin DTD:
Innehållsmodellen #PCDATA EMPTY andra element blandat innehåll
Notation Se övningsmaterialet, bl.a. en bilaga
Verktyg Kommersiella redigeringsverktyg ”Fria” verktyg –Anteckningar (ingen validator) –JEdit (validator) –Emacs m fl MS IE Explorer (parsern ”validerar”)
Projektarbetet Välj text (förslagslista | eget alternativ) Karaktär och omfattning (3000 ord) Egen digitalisering? Grupparbete. Planering, fördelning, buffert. Koda med TEI Lite. Deadlines (ti 5/4 ; fre 15/4 ; on 27/4) Seminarier: –presentera och diskutera vald text, arbetsgång, TEI-tillämpning, problem och lösningar –varje gruppmedlem skall kunna förklara och diskutera projektets insatser, val, metoder och resultat Fiktivt syfte. Faktiskt syfte.
Thanks, Mikael Gunnarsson and Edward Vanhoutte, for ideas, images & explanations