Dokumentarkitektur 29 augusti 2007 Standard, boring Mats Dahlström Kunskapsorganisation Dokumentrepresentation
m e n y 1.dokumentrepresentation 2.dokument 3.textkodning 4.arkitektur
dokumentrepresentation katalogisering, formatering och textkodning intellektuella samband historiska samband bibliografi (i bred mening) ett kitt mellan grenarna: –referensbibliografi –materialbibliografi
katalogisering vs formatering Katalogisering = formell beskrivning av ett dokument samt placering av denna (beskrivning) i en katalog Formatering = katalogisering enligt standardiserade koder (jfr strukturen i en databas med fältnamn och fältinnehåll)
dokumentrepresentation katalogisering, formattering och textkodning intellektuella samband historiska samband bibliografi (i bred mening) ett kitt mellan grenarna: –referensbibliografi –materialbibliografi
bibliografisk hierarki Referensbibliografi (FRBR)Deskriptiv bibliografi (Bowers) innehållverk formuttryckversion realiseringmanifestation edition impression emission stat materialiseringexemplar (item)exemplar (copy)
terminologi Länk element elementinnehåll attributvärde attribut Märken (tags) Märkord (generic name)
textkodning implicit textkodning: layout, paralingvistik explicit, analog textkodning: bok- och förlagsindustrin explicit, digital textkodning: förlagsindustrin och sedan digitala dokument
text- och ordbehandling Hålkort Industrivärlden (t.ex. flygindustrin) och förlagsvärlden IBM: GML Ordbehandlingsprogram och textkodning. Proprietära format, liten portabilitet ”Sättningsverktyg” för produktion av tryckt text ”Sättningsverktyg” för produktion av utskriven text WYSIWYG. WYSIAYG
deskriptiv textkodning Die Leiden des jungen Werther is an exceptionally good example of a book full of Weltschmerz. {\i Die Leiden des jungen Werther} is an {\i exceptionally} good example of a book full of {\i Weltschmerz}. Die Leiden des jungen Werther is an exceptionally good example of a book full of Weltschmerz
SGML - HTML, XML - XHTML specificitet generalitet SGML (1986) HTML (ca 1992) XML (1998) XHTML (2000)
World Wide Web Consortium (W3C) Ansvar och specifikationer för XHTML, XML, CSS m.m. Valideringstjänster WAI (WCAG)
dokument i X(HT)ML Ett dokument = ett träd Trädstruktur = en representation av en hierarkisk struktur i en informationsenhet Varje element har exakt ett eller inget överordnat element Varje element har därmed noll till många underordnade element
XML = one input, many outputs
metadata Cf katalogisering. På sätt och vis kan vi se metadata som det kitt som förenar de tre momenten i dokrep. Betecknande för hela “verket” i st f för komponenter av detsamma. Synliga resp dolda metadata. Dåligt stöd för detta i SGML och HTML. DC ett försök till internationell standard. Olika praktiker (ex: DC, PICS, TEI Headers, RDF, kommentarer) –Bibliografisk beskrivning (titel, upphov, / ansvar, datering, språk etc) –Indexering –Relation mellan dokumentet och andra dokument –Relationer mellan digitaliserad version och källa/källor –Klassificerande och kontextgivande uppgifter –Revisionshistorik
kodningens varje moment... –identifiera dokumentet, dess text, paratexter och paralingvistik. bestämma genre, form o innehåll... –välja kodspråk. välja / formulera DTD... –välja verktyg för kodning och produktion / publicering... –identifiera, sortera och ”gallra” segment och nivåer i dokument och text... –välja / formulera märken samt matcha segment och märken i en faktisk kodning... … innehåller alltid en tolkande dimension
Textkodning som textvetenskap Textkodning som språkvetenskap Textkodning som en dokumentrepresenterande verksamhet kunskapsorganisation (dvs B&I).
om dokumentarkitektur Dahlström, Mats & Mikael Gunnarsson (2000). “DA Draws a Circle: On Document Architecture and Its Relation to LIS Education and Research.” Information Research 5.2. Francke, Helena (2005). "What's in a Name? Contextualizing the Document Concept." Literary and Linguistic Computing 20.1: (mer user interaction-orienterad)
arkitektur metaforer ett resultat av hur ett ”innehåll” formerats efter ett bestämt substrat i bestämda tekniska miljöer, för bestämda syften och användare enligt implicita eller explicita konventioner och praktiker (genre) arkitektur inom samlingar arkitektur inom enskilda dokument
arkitektur, forts. relationer mellan dokumentdelar (lager, sektioner) både presentationell yta och underliggande komposition medietypisk genretypisk
arkitekturkrockar Kodningen försöker på ett och samma plan representera arkitekturer från olika nivåer, t.ex.: –mediet –dokumentet –texten –verket Dessa kan överlappa och krocka.
krockar också mellan … olika modaliteter (fr.a. text och bild) ”form” och innehåll olika hierarkier inom en och samma nivå (overlapping hierarchies)
en lösning: ”stand-off markup” Uppmärkningens element avskiljs från uppmärkt text och placeras i särskilda filer (uppmärkning bäddar ju annars in elementen i den uppmärkta texten). Tanken är att subjektiv tolkning (uppmärkning) kan och bör skiljas från objektiv text En vinst är därmed att flera olika uppmärkningstillämpningar kan tilldelas en och samma ”nakna” text. En annan vinst är att vi kan undvika överlappande hierarkier