26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella.

26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist (leifg@ling.gu.se) GSLT (Sveriges nationella forskarskola i språkteknologi) Matematiska och systemtekniska institutionen, Växjö universitet Institutionen för lingvistik, Göteborgs universitet

26:e mars 2004Information Retrieval2 Min bakgrund 1986-1989: ”4-årig teknisk” (electrical engineering) 1989-1993: M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University 1989-1993: 62 points in mechanics, electronics, etc. 1994-2001: Work at the Linguistic department in Göteborg –Various projects related to corpus linguistics –Some teaching on statistical methods (Göteborg and Uppsala), –and corpus linguistics in Göteborg, Sofia, and Beijing 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases 1995-1996: Work at the department of Informatics in Göteborg (the Internet Project) 2001-2006: PhD Student in Computer Science / Language Technology

26:e mars 2004Information Retrieval3 Mina forskningsintressen Statistiska metoder i språkteknologi –Korpuslingvistik (Jens) –Maskininlärning (Torbjörn) –Dolda Markovmodeller –Vektorrymdsmodeller för lagring av semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid träning

26:e mars 2004Information Retrieval4 Handlar om att lösa flera olika problem: –AltaVista-stilen: ”Ge mig en massa dokument som innehåller orden ”rymdfärjor” och ”färdkost”, i slumpvis ordning” –Traditionell IR: ”Ta fram alla dokument som handlar om rymdfärjor och färdkost” ”Ge mig alla dokument som liknar det här dokumentet” Ordna efter relevans –Fråga-svar-system: ”Vem vann franska öppna 1982?” ”Varför var det krig i Ruanda?”

26:e mars 2004Information Retrieval5 IR, forts. Övriga system och uppgifter –”Ge mig 10 bra nyckelord för det här dokumentet” –”Ta fram en förkortad version av den här texten” Flerspråkiga varianter av ovanstående –Skriv frågor på ett språk och få svar på ett annat –Fråga på ett språk och få dokument på flera språk Multimodala system –Sök även i ljud- och bildfiler –”Visa mig alla mål från dagens matcher i spanska ligan” –”Leta upp stället när Boromir dör i Sagan om ringen”

26:e mars 2004Information Retrieval6 Problem att lösa Lagra stora mängder data (dokument) –Identifiera och extrahera sökbar information, dvs. “förstå” dokumenten –Skapa index för snabb åtkomst Tolka frågor (naturligt språk / nyckelordslista) –Parsning –Hur avancerade frågor vill man klara? –Vanligt med frågemallar Vanligaste uppgifterna är alltså: –Information retrieval: hitta dokumenten som matchar frågan –Information extraction: hitta relevanta delar av dokumenten –Question/answering: ge ett direkt svar på frågan

26:e mars 2004Information Retrieval7 IR – Komplikationer Folk är dåliga på att välja bra sökord Många skriver in endast 1-2 ord som fråga Dokumenten man söker i, samt även sökfrågorna, innehåller stavfel Många ord är ambiguösa Dokumenten som är relevanta för en sökfråga kan ha helt olika innehåll i olika domäner Datamängder är ofta ostrukturerade eller på flera olika format

26:e mars 2004Information Retrieval8 En modell som löser en del av problemen LSI (Latent Semantic Indexing) är en metod att ta vara på underliggande strukturell information i dokumentsamlingar Klassisk IR använder en vektormodell som grupperar dokument med många gemensamma termer Men! –Dokument kan ha samma innehåll men använda olika vokabulär –Termerna i dokumentet är kanske inte de mest representativa LSI använder termernas fördelning i samtliga dokument när man jämför två dokument!

26:e mars 2004Information Retrieval9 Litet exempel

26:e mars 2004Information Retrieval10 En traditionell vektormodell Börja med en term/dokument-matris, precis som för LSI Likhet mellan dokument kan beräknas med kosinus för vinkeln mellan vektorerna Relevanta termer för ett dokument – de som finns i dokumentet Problem i exemplet: –Termen ”trees” verkar relevant för m-dokumenten men finns inte i m4 –cos(c1, c5)=0 liksom cos(c1, m3)

26:e mars 2004Information Retrieval11 Hur funkar LSI? Idén är att hitta latent (underliggande) information som: –Ord 1 och ord 2 förekommer ofta tillsammans så kanske dokument 1 (som innehåller ord 1 ) och dokument 2 (som innehåller ord 2 ) är relaterade? –dokument 3 och dokument 4 har många gemensamma termer, så kanske orden de inte har gemensamt är relaterade?

26:e mars 2004Information Retrieval12 Hur funkar LSI? Forts. I den klassiska vektormodellen är en dokumentvektor 12-dimensionell och en termvektor 9-dimensionell för exemplet Vi vill projicera dessa vektorer till ett vektorrum med färre dimensioner Ett sätt är att använda ”Singular Value Decomposition” (SVD) Originalmatrisen räknas om till en ny representation bestående av tre matriser

26:e mars 2004Information Retrieval13 Vad man får X=T 0 S 0 D 0 : X, T 0, S 0, D 0 är matriser

26:e mars 2004Information Retrieval14 X kan räknas om med m=2 C1C2C3C4C5M1M2M3M4 Human.16.40.38.47.18-.05-.12-.16-.09 Interface.14.37.33.40.16-.03-.07-.10-.04 Computer.15.51.36.41.24.02.06.09.12 User.26.84.61.70.39.03.08.12.19 System.451.23 1.051.27.56-.07-.15-.21-.05 Response.16.58.38.42.28.06.13.19.22 Time.16.58.38.42.28.06.13.19.22 EPS.22.55.51.63.24-.07-.14-.20-.11 Survey.10.53.23.21.27.14.44.42 Trees-.06.23 -.14-.27.14.24.77.66 Graph-.06.34 -.15-.30.20.31.98.85 Minors-.04.25 -.10-.21.15.22.71.62

26:e mars 2004Information Retrieval15 Vad får vi av SVD? Susan Dumais 1995: “The SVD program takes the ltc transformed term-document matrix as input, and calculates the best "reduced-dimension" approximation to this matrix.” Michael W Berry 1992: “This important result indicates that A k is the best k-rank approximation (in at least squares sense) to the matrix A. Leif 2003: Vad Berry menar är att SVD ger den bästa projektionen från n till k dimensioner, d.v.s. den projektion som bäst bibehåller avståndet mellan vektorer

26:e mars 2004Information Retrieval16 Ett exempel baserat på 50000 tidningsartiklar stefan edberg edberg0.918 cincinnatis0.887 edbergs0.883 världsfemman0.883 stefans0.883 tennisspelarna0.863 stefan0.861 turneringsseger0.859 queensturneringen0.858 växjöspelaren0.852 grästurnering0.847 bengt johansson johansson0.852 johanssons0.704 bengt0.678 centerledare0.674 miljöcentern0.667 landsbygdscentern0.667 implikationer0.645 ickesocialistisk0.643 centerledaren0.627 regeringsalternativet 0.620 vagare0.616

26:e mars 2004Information Retrieval17 Efter lite trixande kan vi hitta handbollspersoner istället för politik… bengt-johansson1.000 förbundskapten-bengt-johansson 0.907 förbundskaptenen-bengt-johansson 0.835 jonas-johansson0.816 förbundskapten-johansson0.799 johanssons0.795 svenske-förbundskaptenen-bengt-johansson 0.792 bengan0.786 carlen0.777 bengan-johansson0.767 johansson-andreas-dackell0.765 förlorat-matcherna0.750 ck-bure0.748 daniel-johansson0.748 målvakten-mats-olsson0.747 jörgen-jönsson-mikael-johansson 0.744 kicki-johansson0.744 mattias-johansson-aik0.741 thomas-johansson0.739 handbollsnation0.738 mikael-johansson0.737 förbundskaptenen-bengt-johansson-valde 0.736 johansson-mats-olsson0.736 sveriges-handbollslandslag0.736 ställningen-33-matcher0.736

26:e mars 2004Information Retrieval18 Några möjliga applikationer Automatisk generering av en domänspecifik tesaurus Nyckelordsextraktion från dokument i en dokumentsamling Hitta dokument som liknar varandra (klustring) Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer

26:e mars 2004Information Retrieval19 Åter till dagens verklighet Indexering –Viktigast: inverted index –Termviktning: tf/idf –Stopplista –Hashning Felstavningar och okända ord –Suffixträd –Feltolerand strängsökning Datalingvistik –Taggning –Parsning –Stemming/lemmatisering

26:e mars 2004Information Retrieval20 Google Namnet kommer från googol, dvs 1 0000000000 000000000 000000000 000000000 000000000 000000000 000000000 000000000 000000000 000000000 000000000 Företaget grundades 1995 och 1999 började söksystemet användas Ca 1300 anställda (i Silicon Valley) Vad är det för speciellt med Google? –Kapaciteten! –Dokumentrankingen

26:e mars 2004Information Retrieval21 Google: kapacitet 200 miljoner frågor besvaras varje dag 82 miljoner unika användare per månad Mer är 4 miljarder dokument indexeras 880 miljoner bilder 845 miljoner Usenet meddelanden Förutom text och html stöds även: Office, Postscript, Pdf, Rtf, mfl.

26:e mars 2004Information Retrieval22 Dokumentrankning i Google Termerna I sökfrågan viktas Man utnyttjar att webben har struktur HTML/XML-specifika egenskaper –Rubriknivåer –Kodade nyckelord i taggar Position i stycken/rubriker Mycket annat som inte publiceras

26:e mars 2004Information Retrieval23 Evaluation The classical IR task: find an ordered list of documents relevant to a user query Difficult to evaluate –Relevance is subjective –Different depending on context –But very important! Test collections for Swedish not very common: CLEF, ?

26:e mars 2004Information Retrieval24 The test collection Documents Topics Relevance judgments

26:e mars 2004Information Retrieval25 Document collection Newspaper articles from GP and HD 161 000 articles, 40 MTokens Good to have more than one newspaper: –Same content, different author (not always) 10% of my newspaper article collection Copyright is a problem

26:e mars 2004Information Retrieval26 Topics Borrowed from CLEF 52/90, but not the most difficult Examples: –Filmer av bröderna Kaurismäki. Description: Sök efter information om filmer som regisserats av någon av de båda bröderna Aki och Mika Kaurismäki. Narrative: Relevanta dokument namnger en eller flera titlar på filmer som regisserats av Aki eller Mika Kaurismäki. –Finlands första EU-kommissionär Description: Vem utsågs att vara den första EU- kommissionären för Finland i Europeiska unionen? Narrative: Ange namnet på Finlands första EU-kommissionär. Relevanta dokument kan också nämna sakområdena för den nya kommissionärens uppdrag.

26:e mars 2004Information Retrieval27 Relevance judgments Only a subset for each topic –Selected by earlier experiments –Similar approach to TREC and CLEF 100 documents for 5 strategies: –100  N  500 –Important to include relevant and irrelevant documents A scale of relevance proposed by Sormonen: Irrelevant (0)  Marginally relevant (1)  Fairly relevant (2)  Highly relevant (3) Manually annotated

26:e mars 2004Information Retrieval28 Evaluation metrics Recall & precision is problematic: –Ranked lists – how much better is position 1 than pos 5 and 10? –How long should the lists be? –Relevance scale – how much better is “highly relevant” than “fairly relevant” –What about the unknown documents not judged? Too many unknown leads to more manual judgments…

26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella.

Liknande presentationer

En presentation över ämnet: "26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella.

Liknande presentationer

En presentation över ämnet: "26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss