Presentation laddar. Vänta.

Presentation laddar. Vänta.

Johan Eklund, doktorand Bibliotekshögskolan Högskolan i Borås.

Liknande presentationer


En presentation över ämnet: "Johan Eklund, doktorand Bibliotekshögskolan Högskolan i Borås."— Presentationens avskrift:

1 Johan Eklund, doktorand Bibliotekshögskolan Högskolan i Borås

2  Pågår  Delvis finansierat av KK-stiftelsen  Det övergripande målet med projektet är att genom tillämpning av forskningsrön från informationsvetenskap, datavetenskap och datalingvistik finna konkreta möjligheter att förbättra tillgången till information i biblioteksdatasystem  Samarbete med näringsliv och bibliotek 

3 LIVA:s styrgrupp består av representanter från  Bibliotekshögskolan, Högskolan i Borås  BTJ (f d Bibliotekstjänst) ◦ Ledande leverantör av medie- och informationsprodukter till informationsintensiva verksamheter som bibliotek, universitet och företag ◦ Databastjänster och bibliografisk information  Bibliotekscentrum ◦ Leverantör av datasystem till bibliotek och andra informationsintensiva verksamheter

4  Projektets forskningsområden studeras i samarbete med en uppsättning referensbibliotek: ◦ Folkbiblioteken i Lund ◦ Nordiska museet ◦ Statistiska centralbyrån ◦ Talboks- och punktskriftsbiblioteket ◦ Södra Älvsborgs Sjukhus

5  Dagens biblioteksdatasystem besitter stora mängder information som inte utnyttjas optimalt för lagring, sökning och presentation  Omfattande manuellt arbete att katalogisera information  Svårigheter för användare att hitta lämpliga sökformuleringar  Ingen dialog med användaren  Vanligen ingen innehållsbaserad rankning av sökresultat  Linjär presentation av sökresultat

6  Inom projektet har följande problemområden utkristalliserats: ◦ Automatisk indexering och nyckelordsextraktion: identifikation av innehållsbeskrivande termer och fraser i fulltextmaterial ◦ Automatisk klassifikation: automatisk gruppering av informationsobjekt (dokument och språkliga uttryck) genom maskininlärning ◦ Informationsåtervinning: maskinell selektion av dokument som estimeras ge relevanta svar på en sökfråga ◦ Informationsvisualisering: åskådliggörande av strukturen i ett informationsmaterial med visuella ledtrådar

7  Indexering : processen att associera dokument med termer  d 158 (rymden, stjärnhimlen, astrogeologi, …)  Ämnesord, nyckelord, deskriptorer  Modern approach: termassociationen kombineras med en vikt som utgör ett mått på hur stark associationen är  d 158 (rymden 0.83, stjärnhimlen 0.46, …) Automatisk indexering

8  Redan på 1950-talet publicerades idéer om hur termernas frekvenser i dokumenten kan användas för att  Luhn, H. (1958). The automatic creation of literature abstracts. Termviktning

9  Antag att en term (exempelvis ”partikel”) förekommer 3 ggr i ett dokument  Antag vidare att den maximala frekvensen för en term i samma dokument är 8  Måttet tf är då 3/8 = 0,375  Antag att dokumentkollektionen innehåller 1000 dokument och termen ”partikel” finns i 25 av dessa  Måttet idf är då log 1000/25  1,60  tfidf = tf × idf Termviktningsmetoden tfidf

10  421 texter ur Populär Historia har bearbetats för nyckelordsextraktion  Ett generellt verktyg för nyckelordsextraktion har utarbetats  Producerar nyckelord, egennamn och fraser  Ikoner, Human IT Extraktion av deskriptorer

11  Grupper av manuellt tilldelade ämnesord kan användas för att automatiskt skapa termkartor och tesauri  Samförekomstfrekvenser hos ämnesord är generellt mycket indikativa på semantiska relationer  Klusteranalys och självorganiserande kartor Klustring av indextermer

12  Måttet entropi designades av Claude Shannon på 1940-talet för att kvantifiera mängden information i en signal  Entropi är ett mått på graden av osäkerhet rörande utfallet i en given situation  Information gain är skillnaden i entropi mellan en obetingad och betingad förutsägelse  Information gain för en indexterm är ett mått på i vilken utsträckning term kan användas som indikator på dokumentets innehåll Evaluering av index

13  Automatisk klassifikation är en tillämpning av maskininlärning med det generella syftet att lära ett system att associera dokumentinnehåll med dokumentkategori  Klusterhypotesen: dokument med liknande terminnehåll tenderar att vara relevanta för samma informationsförfrågningar (och vice versa) Automatisk klassifikation

14  En mängd förkategoriserade dokument används som träningsdata för att inducera en klassifikationsmodell  Klassifikationsmodellen består av en uppsättning parametrar som utgör systemets ”minne” av hur dokumentinnehåll är relaterat till dokumentklass  Användningsområden: beslutsstöd vid manuell klassifikation, manuell indexering, samt vid individualisering av informationssystem Automatisk klassifikation

15  Inom LIVA studeras en metod som kallas supportvektormaskin (SVM), vilken ger en generellt mycket hög klassifikationseffektivitet  Resultat vid försök med testmängder från BURK genom indexering av bibliografiska poster med tilläggsinformation i form av lektorsomdömen har uppvisat en säkerhet på 93-96% Automatisk klassifikation

16 Informationsvisualisering  Informationsvisualisering innebär generellt att informationsstrukturen i en dokumentmängd framhävs visuellt  Tillämpas för att synliggöra relationer och kategorier/grupper i ett informationsmaterial  Termkartor  Force-directed layout

17  Ett vanligt problem vid informationssökning är att stavningen av söktermer inte överensstämmer med indextermernas stavning  Vladimir Levenshtein publicerade 1965 ett mått som anger hur många modifikationer (tillägg, borttag, ersättning) av en textsträng som behöver utföras för att transformera strängen till en annan sträng  Ex. sträng  stång kräver 2 ändringar Stavningskontroll

18  Klassisk bibliografisk information kan användas för statistisk klustring av indextermer (latent semantisk analys) med utgångspunkt från samförekomstmönster  Tilläggsinformation i form av innehållsförteckningar och lektörsomdömen är mycket användbara för automatisk klassifikation av bibliografiska poster  Extraktion av nyckelord ur fulltextmaterial genom tillämpning av statistiska resonemang och analystekniker ger en kompletterande, mer detaljerad nivå av den bibliografiska beskrivningen  Olika visuella metaforer som konturkartor, informationsrymder och kraftfält kan användas för att åskådliggöra informationsinnehåll

19  Extraktion av nyckelord, nyckelfraser och egennamn från nya fulltextsamlingar  Analys av resultat av automatisk klassifikation inom olika komplexa ämnesområden  Utveckling och utvärdering av visualiseringsprototyp i en grupp testanvändare


Ladda ner ppt "Johan Eklund, doktorand Bibliotekshögskolan Högskolan i Borås."

Liknande presentationer


Google-annonser