Presentation laddar. Vänta.

Presentation laddar. Vänta.

LIVA Library Information Visualization and Analysis

Liknande presentationer


En presentation över ämnet: "LIVA Library Information Visualization and Analysis"— Presentationens avskrift:

1 LIVA Library Information Visualization and Analysis
Johan Eklund, doktorand Bibliotekshögskolan Högskolan i Borås

2 Om LIVA-projektet Pågår 2005-2007 Delvis finansierat av KK-stiftelsen
Det övergripande målet med projektet är att genom tillämpning av forskningsrön från informationsvetenskap, datavetenskap och datalingvistik finna konkreta möjligheter att förbättra tillgången till information i biblioteksdatasystem Samarbete med näringsliv och bibliotek

3 Styrgrupp LIVA:s styrgrupp består av representanter från
Bibliotekshögskolan, Högskolan i Borås BTJ (f d Bibliotekstjänst) Ledande leverantör av medie- och informationsprodukter till informationsintensiva verksamheter som bibliotek, universitet och företag Databastjänster och bibliografisk information Bibliotekscentrum Leverantör av datasystem till bibliotek och andra informationsintensiva verksamheter

4 Referensbibliotek Projektets forskningsområden studeras i samarbete med en uppsättning referensbibliotek: Folkbiblioteken i Lund Nordiska museet Statistiska centralbyrån Talboks- och punktskriftsbiblioteket Södra Älvsborgs Sjukhus

5 Problemanalys Dagens biblioteksdatasystem besitter stora mängder information som inte utnyttjas optimalt för lagring, sökning och presentation Omfattande manuellt arbete att katalogisera information Svårigheter för användare att hitta lämpliga sökformuleringar Ingen dialog med användaren Vanligen ingen innehållsbaserad rankning av sökresultat Linjär presentation av sökresultat

6 Huvudinriktningar Inom projektet har följande problemområden utkristalliserats: Automatisk indexering och nyckelordsextraktion: identifikation av innehållsbeskrivande termer och fraser i fulltextmaterial Automatisk klassifikation: automatisk gruppering av informationsobjekt (dokument och språkliga uttryck) genom maskininlärning Informationsåtervinning: maskinell selektion av dokument som estimeras ge relevanta svar på en sökfråga Informationsvisualisering: åskådliggörande av strukturen i ett informationsmaterial med visuella ledtrådar

7 Automatisk indexering
Indexering : processen att associera dokument med termer d158 (rymden, stjärnhimlen, astrogeologi, …) Ämnesord, nyckelord, deskriptorer Modern approach: termassociationen kombineras med en vikt som utgör ett mått på hur stark associationen är d158 (rymden 0.83, stjärnhimlen 0.46, …)

8 Termviktning Redan på 1950-talet publicerades idéer om hur termernas frekvenser i dokumenten kan användas för att Luhn, H. (1958). The automatic creation of literature abstracts.

9 Termviktningsmetoden tfidf
Antag att en term (exempelvis ”partikel”) förekommer 3 ggr i ett dokument Antag vidare att den maximala frekvensen för en term i samma dokument är 8 Måttet tf är då 3/8 = 0,375 Antag att dokumentkollektionen innehåller dokument och termen ”partikel” finns i 25 av dessa Måttet idf är då log 1000/25  1,60 tfidf = tf × idf

10 Extraktion av deskriptorer
421 texter ur Populär Historia har bearbetats för nyckelordsextraktion Ett generellt verktyg för nyckelordsextraktion har utarbetats Producerar nyckelord, egennamn och fraser Ikoner, Human IT

11 Klustring av indextermer
Grupper av manuellt tilldelade ämnesord kan användas för att automatiskt skapa termkartor och tesauri Samförekomstfrekvenser hos ämnesord är generellt mycket indikativa på semantiska relationer Klusteranalys och självorganiserande kartor

12 Evaluering av index Måttet entropi designades av Claude Shannon på talet för att kvantifiera mängden information i en signal Entropi är ett mått på graden av osäkerhet rörande utfallet i en given situation Information gain är skillnaden i entropi mellan en obetingad och betingad förutsägelse Information gain för en indexterm är ett mått på i vilken utsträckning term kan användas som indikator på dokumentets innehåll

13 Automatisk klassifikation
Automatisk klassifikation är en tillämpning av maskininlärning med det generella syftet att lära ett system att associera dokumentinnehåll med dokumentkategori Klusterhypotesen: dokument med liknande terminnehåll tenderar att vara relevanta för samma informationsförfrågningar (och vice versa)

14 Automatisk klassifikation
En mängd förkategoriserade dokument används som träningsdata för att inducera en klassifikationsmodell Klassifikationsmodellen består av en uppsättning parametrar som utgör systemets ”minne” av hur dokumentinnehåll är relaterat till dokumentklass Användningsområden: beslutsstöd vid manuell klassifikation, manuell indexering, samt vid individualisering av informationssystem

15 Automatisk klassifikation
Inom LIVA studeras en metod som kallas supportvektormaskin (SVM), vilken ger en generellt mycket hög klassifikationseffektivitet Resultat vid försök med testmängder från BURK genom indexering av bibliografiska poster med tilläggsinformation i form av lektorsomdömen har uppvisat en säkerhet på 93-96% 15

16 Informationsvisualisering
Informationsvisualisering innebär generellt att informationsstrukturen i en dokumentmängd framhävs visuellt Tillämpas för att synliggöra relationer och kategorier/grupper i ett informationsmaterial Termkartor Force-directed layout 16

17 Stavningskontroll Ett vanligt problem vid informationssökning är att stavningen av söktermer inte överensstämmer med indextermernas stavning Vladimir Levenshtein publicerade 1965 ett mått som anger hur många modifikationer (tillägg, borttag, ersättning) av en textsträng som behöver utföras för att transformera strängen till en annan sträng Ex. sträng  stång kräver 2 ändringar

18 Projektresultat Klassisk bibliografisk information kan användas för statistisk klustring av indextermer (latent semantisk analys) med utgångspunkt från samförekomstmönster Tilläggsinformation i form av innehållsförteckningar och lektörsomdömen är mycket användbara för automatisk klassifikation av bibliografiska poster Extraktion av nyckelord ur fulltextmaterial genom tillämpning av statistiska resonemang och analystekniker ger en kompletterande, mer detaljerad nivå av den bibliografiska beskrivningen Olika visuella metaforer som konturkartor, informationsrymder och kraftfält kan användas för att åskådliggöra informationsinnehåll

19 Kommande arbete Extraktion av nyckelord, nyckelfraser och egennamn från nya fulltextsamlingar Analys av resultat av automatisk klassifikation inom olika komplexa ämnesområden Utveckling och utvärdering av visualiseringsprototyp i en grupp testanvändare


Ladda ner ppt "LIVA Library Information Visualization and Analysis"

Liknande presentationer


Google-annonser