LIVA Library Information Visualization and Analysis

Slides:



Advertisements
Liknande presentationer
Katalogiseringsutredningen : Delprojekt 1, kvantitativa uppgifter och analys av postflödet Presentation på katalogrådets möte Susanne Sellei.
Advertisements

WCAG 2.0 som ett konkret verktyg i arbetet med komplexa tekniker Andreas Cederbom.
Snabbfakta Omsättning: 586,3 miljoner kronor Personal: 681 Studenter: Professorer: 49 Institutioner: 6 Doktorander: 67 Rektor: Björn Brorström.
KANDIDATUPPSATS.
OM professioner (exempelvis följeforskare)
Svenska WebDewey Introduktion
Kvalitet och utvärdering Några reflektioner bakåt och framåt
Studierektor/universitetsadjunkt
En översyn av riksintressen pågår
Sidnummer I Nationens tjänst…. Om den nationella katalogen och de nya biblioteksuppdragen Kultur i Väst Regionkonferens Gunilla Herdenberg.
Att söka och förvalta kunskap
”Svenska ämnesord” Skapandet av ett nationellt ämnesordssystem
INFORMATIONSSÖKNING VÅRDPROGRAMMET.
Avalon Information Systems Vi är IT-företaget som behärskar framtagning av information och utveckling av konkurrenskraftiga IT-system. - Produktinformation.
Att bygga en fungerande webbplats
IT-ceum. Att skildra den tidiga svenska datahistorien. Erfarenheter från uppbyggnaden av IT-ceum. Del 1.
Strukturering av domänkunskap för pedagogiska tillämpningar
ATT PRODUCERA EN UNDERSÖKNING
Nu är den här som e-bok ! Jonas Hallström, Bibliotekstjänst AB.
Språkteknologisk forskning och utveckling (HT 2007)
Eva-Kristina Salameh Logkurs 5p
Analyser av forskningsansökningar
Svenska WebDewey Introduktion
Dewey i Sverige – Sverige i världen Presentation på Bok & bibliotek 2009, Biblioteksföreningens scen fredagen 25 september kl Mats Lindquist,
Nationell strategi för eHälsa och Socialstyrelsens roll
Stockholm Användarstyrda kataloger? : folksonomier i teori och praktik Harriet AagaardMiriam Nauri Stockholms stadsbibliotekKungl. bibl.
Joint Master of Leadership in LIS - läget 9/08 Evighetsprojektet Nordisk magister i biblioteksledarskap Gunilla Widén-Wulff Informationsförvaltning / ÅA.
STOCKHOLMS UNIVERSITETSBIBLIOTEK Te l e f o n v x l: F ax: w w w.s u b.s u.se Informationssökningskurs för doktorander Geobiblioteket.
Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion
Detection of similarity between documents Axel Bengtsson Ola Olsson
Förskolan Ekot´s modell för
Dataföreningen i Sverige
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
VIS Verksamhetens InformationsSystem. Vad är VIS?
Ämnesportaler och SBIGs SBIGs som idé Gertrud Berger, Bibliotekstjänst.
Kulturinstitution, serviceföretag, lärcentrum eller minnesinstitution – det diskursiva spelet om folkbiblioteken under 30 år Joacim Hansson, FD Inst. för.
©Else-Britt Hellström
Övergång till DDC Katalogutredningen delstudie 3. Presentation vid Libris katalogråd Magdalena Svanberg
Mötesplats inför framtiden, 2007 Aktuell forskning vid Institutionen Biblioteks- och informationsvetenskap / Bibliotekshögskolan, Högskolan.
Relationen mellan IR och IE Upplägg Vad är informationsåtkomst (IR)? Skillnader mellan IR och IE Hur kan IR och IE kombineras? Hur har IR och IE kombinerats?
Inköp med Librisposter
Benkt Wiklund Enheten för näringsliv och samhälle.
Naturvårdsverket | Swedish Environmental Protection Agency 1 Regional årlig uppföljning av miljökvalitetsmålen Naturvårdsverkets anvisningar.
MDI och användbarhet Måndagen den 27/3 Design och utvärdering, 5 poäng.
Förberedelser Beslut Förstudie Nyttovärdering
IT för personligt arbete F4 Utvärdering, rapportering och presentation 7 februari 2005 Eva R Fåhræus.
1. Vad är egentligen GIS ? GIS Attityder Förmåga hos användaren OrganisationTeknik Doktrin/Strategi EtikArbetsmetoder Information.
T i p s - o c h r å d a k u t e n Kristina Berg Gabriella Alexandersson Institutionen för informationsteknologi och medier Praktisk informatik våren 2005.
Förskolan Ekot´s modell för
FL3: Foundations Daniel Nylén. Kognitiv psykologi & IxD Centrala teorier om kognitiv psykologi utgör grunden för HCI- forskningen Att vara människocentrerad.
Lunds universitet / Samordnat IT-stöd vid LU / Mars 2010 NETinfo-möte Samordnat IT-stöd Lunds universitet Johnny Nilsson, PL Birgitta Lastow,
Samma musik men olika teknik Tekniken byts ungefär vart femte år. Informationsinnehållet har oftast en livslängd som är 25–30 år, ibland ännu längre. Besluten.
Hur kan vi förstå begreppet?
Design & Utvärdering, 5 poäng Metoder & Tekniker ”Character of Things” Fredag den 24/3 Informatik A.3.
Utforska och hitta information Problemet Historik Inspirationen Vetenskaplig grund Att läsa: Kapitel 7 i Carroll.
Formellt, skarpt och snyggt
Distribuerad Kognition DCOG. Bakgrund  Mitten-slutet av 80-talet  UC San Diego  Edwin Hutchins, (James Hollan, David Kirsh)  !Lokaliserad individuell.
Föreläsning om RUP RUP – Rational Unified Process
Skolutveckling genom aktionsforskning
Sv Den som söker antagningsstatistik skall finna - men var? Torbjörn Lindquist.
Sidnummer Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion 26 oktober 2015.
Sidnummer Svenska WebDewey Introduktion Harriet Aagaard & Olof Osterman Svenska Deweyredaktion november 2015.
Elever skriver. Att läsa och skriva utvecklas parallellt. När vi läser lär vi oss att packa upp innehållet i en text för att förstå vad den som skrivit.
Styrning ur ett verksamhetsperspektiv. Styrning handlar om att få andra att göra det man själv vill Styrning är beroende av om det finns tillgång till.
Informationssökning Informationsresurser och sökstrategi Universitetsbiblioteket Inga-lill Nilsson.
PUBMED I sökrutan skriver du in valfria sökord och klickar på ”Search”. Vill du istället hitta ett ämnesord att söka på, så byter du från PubMed till.
VIS Verksamhetens InformationsSystem
Design & Utvärdering, 5 poäng
Kritiskt förhållningssätt
Betyg i moderna språk nu redan i år 6
Presentationens avskrift:

LIVA Library Information Visualization and Analysis Johan Eklund, doktorand Bibliotekshögskolan Högskolan i Borås

Om LIVA-projektet Pågår 2005-2007 Delvis finansierat av KK-stiftelsen Det övergripande målet med projektet är att genom tillämpning av forskningsrön från informationsvetenskap, datavetenskap och datalingvistik finna konkreta möjligheter att förbättra tillgången till information i biblioteksdatasystem Samarbete med näringsliv och bibliotek http://www.hb.se/bhs/liva

Styrgrupp LIVA:s styrgrupp består av representanter från Bibliotekshögskolan, Högskolan i Borås BTJ (f d Bibliotekstjänst) Ledande leverantör av medie- och informationsprodukter till informationsintensiva verksamheter som bibliotek, universitet och företag Databastjänster och bibliografisk information Bibliotekscentrum Leverantör av datasystem till bibliotek och andra informationsintensiva verksamheter

Referensbibliotek Projektets forskningsområden studeras i samarbete med en uppsättning referensbibliotek: Folkbiblioteken i Lund Nordiska museet Statistiska centralbyrån Talboks- och punktskriftsbiblioteket Södra Älvsborgs Sjukhus

Problemanalys Dagens biblioteksdatasystem besitter stora mängder information som inte utnyttjas optimalt för lagring, sökning och presentation Omfattande manuellt arbete att katalogisera information Svårigheter för användare att hitta lämpliga sökformuleringar Ingen dialog med användaren Vanligen ingen innehållsbaserad rankning av sökresultat Linjär presentation av sökresultat

Huvudinriktningar Inom projektet har följande problemområden utkristalliserats: Automatisk indexering och nyckelordsextraktion: identifikation av innehållsbeskrivande termer och fraser i fulltextmaterial Automatisk klassifikation: automatisk gruppering av informationsobjekt (dokument och språkliga uttryck) genom maskininlärning Informationsåtervinning: maskinell selektion av dokument som estimeras ge relevanta svar på en sökfråga Informationsvisualisering: åskådliggörande av strukturen i ett informationsmaterial med visuella ledtrådar

Automatisk indexering Indexering : processen att associera dokument med termer d158 (rymden, stjärnhimlen, astrogeologi, …) Ämnesord, nyckelord, deskriptorer Modern approach: termassociationen kombineras med en vikt som utgör ett mått på hur stark associationen är d158 (rymden 0.83, stjärnhimlen 0.46, …)

Termviktning Redan på 1950-talet publicerades idéer om hur termernas frekvenser i dokumenten kan användas för att Luhn, H. (1958). The automatic creation of literature abstracts.

Termviktningsmetoden tfidf Antag att en term (exempelvis ”partikel”) förekommer 3 ggr i ett dokument Antag vidare att den maximala frekvensen för en term i samma dokument är 8 Måttet tf är då 3/8 = 0,375 Antag att dokumentkollektionen innehåller 1000 dokument och termen ”partikel” finns i 25 av dessa Måttet idf är då log 1000/25  1,60 tfidf = tf × idf

Extraktion av deskriptorer 421 texter ur Populär Historia har bearbetats för nyckelordsextraktion Ett generellt verktyg för nyckelordsextraktion har utarbetats Producerar nyckelord, egennamn och fraser Ikoner, Human IT

Klustring av indextermer Grupper av manuellt tilldelade ämnesord kan användas för att automatiskt skapa termkartor och tesauri Samförekomstfrekvenser hos ämnesord är generellt mycket indikativa på semantiska relationer Klusteranalys och självorganiserande kartor

Evaluering av index Måttet entropi designades av Claude Shannon på 1940-talet för att kvantifiera mängden information i en signal Entropi är ett mått på graden av osäkerhet rörande utfallet i en given situation Information gain är skillnaden i entropi mellan en obetingad och betingad förutsägelse Information gain för en indexterm är ett mått på i vilken utsträckning term kan användas som indikator på dokumentets innehåll

Automatisk klassifikation Automatisk klassifikation är en tillämpning av maskininlärning med det generella syftet att lära ett system att associera dokumentinnehåll med dokumentkategori Klusterhypotesen: dokument med liknande terminnehåll tenderar att vara relevanta för samma informationsförfrågningar (och vice versa)

Automatisk klassifikation En mängd förkategoriserade dokument används som träningsdata för att inducera en klassifikationsmodell Klassifikationsmodellen består av en uppsättning parametrar som utgör systemets ”minne” av hur dokumentinnehåll är relaterat till dokumentklass Användningsområden: beslutsstöd vid manuell klassifikation, manuell indexering, samt vid individualisering av informationssystem

Automatisk klassifikation Inom LIVA studeras en metod som kallas supportvektormaskin (SVM), vilken ger en generellt mycket hög klassifikationseffektivitet Resultat vid försök med testmängder från BURK genom indexering av bibliografiska poster med tilläggsinformation i form av lektorsomdömen har uppvisat en säkerhet på 93-96% 15

Informationsvisualisering Informationsvisualisering innebär generellt att informationsstrukturen i en dokumentmängd framhävs visuellt Tillämpas för att synliggöra relationer och kategorier/grupper i ett informationsmaterial Termkartor Force-directed layout 16

Stavningskontroll Ett vanligt problem vid informationssökning är att stavningen av söktermer inte överensstämmer med indextermernas stavning Vladimir Levenshtein publicerade 1965 ett mått som anger hur många modifikationer (tillägg, borttag, ersättning) av en textsträng som behöver utföras för att transformera strängen till en annan sträng Ex. sträng  stång kräver 2 ändringar

Projektresultat Klassisk bibliografisk information kan användas för statistisk klustring av indextermer (latent semantisk analys) med utgångspunkt från samförekomstmönster Tilläggsinformation i form av innehållsförteckningar och lektörsomdömen är mycket användbara för automatisk klassifikation av bibliografiska poster Extraktion av nyckelord ur fulltextmaterial genom tillämpning av statistiska resonemang och analystekniker ger en kompletterande, mer detaljerad nivå av den bibliografiska beskrivningen Olika visuella metaforer som konturkartor, informationsrymder och kraftfält kan användas för att åskådliggöra informationsinnehåll

Kommande arbete Extraktion av nyckelord, nyckelfraser och egennamn från nya fulltextsamlingar Analys av resultat av automatisk klassifikation inom olika komplexa ämnesområden Utveckling och utvärdering av visualiseringsprototyp i en grupp testanvändare