Presentation laddar. Vänta.

Presentation laddar. Vänta.

9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola.

Liknande presentationer


En presentation över ämnet: "9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola."— Presentationens avskrift:

1 9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola i språkteknologi) Matematiska och systemtekniska institutionen, Växjö universitet Institutionen för lingvistik, Göteborgs universitet

2 9e december 2003Statistiska metoder & IR2 Min bakgrund : ”4-årig teknisk” (electrical engineering) : M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University : 62 points in mechanics, electronics, etc : Work at the Linguistic department in Göteborg –Various projects related to corpus linguistics –Some teaching on statistical methods (Göteborg and Uppsala), –and corpus linguistics in Göteborg, Sofia, and Beijing 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases : Work at the department of Informatics in Göteborg (the Internet Project) : PhD Student in Computer Science / Language Technology

3 9e december 2003Statistiska metoder & IR3 Mina forskningsintressen Statistiska metoder i språkteknologi –Dolda Markovmodeller –Korpuslingvistik (Jens) –Maskininlärning (Torbjörn) –Vektorrymdsmodeller för lagring av semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid träning

4 9e december 2003Statistiska metoder & IR4 Statistik i datalingvistikens tjänst Problem med traditionella metoder –Parsrar ger ibland 1000-tals analyser för ganska normala meningar. Vilken är den rätta? –Hur analyserar man saker man aldrig sett förut? –Hur gör man regler för något man inte vet hur det fungerar? –En del taggare/parsers ger ibland inget svar alls! Många problem kan lösas med statistik

5 9e december 2003Statistiska metoder & IR5 Statistik i datalingvistik, forts. Egentligen inte statistik utan sannolikhetsteori Vi bygger en modell med en viss kunskap och låter slumpen fylla i resten Parametrar gissas utifrån så kallad träningsdata Sedan utgår man ifrån att träningskorpusen är representativ för språket Den analys med högst sannolikhet antas vara den rätta Statistiskt/sannolikhetsteoretiska metoder kallas ofta för stokastiska – ett annat ord bara

6 9e december 2003Statistiska metoder & IR6 Sannolikhetsteori Handlar om att räkna ut hur stor chans det är att något inträffar givet en viss världskunskap Sannolikheten P (Händelse | Kunskap): –Ett tal mellan 0 och 1 0: inträffar aldrig 1: inträffar alltid annars: man vet bara hur troligt det är Exempel på sannolikheter: –P (femma är man kastar en tärning) –P (det blir soligt imorgon) –P (det blir regn imorgon | det var soligt igår) –P (nästa ord jag säger är ”päronsoda”)

7 9e december 2003Statistiska metoder & IR7 Några grundbegrepp Försök: en process som kan ha olika utfall Utfall: resultatet av ett försök Utfallsrum: Mängden av alla möjliga utfall Händelse: Delmängd av utfallsrummet Likformig fördelning: alla utfall är lika sannolika –Sannolikhetsteori med denna förutsättning uppfylld kallas kombinatorik. Exempel: lotto, stryktips, poker Betingad sannolikhet: en sannolikhet beräknad utifrån någon viss kunskap Beroende händelser: händelser vars sannolikheter påverkas av varandras utfall

8 9e december 2003Statistiska metoder & IR8 Sannolikhetsteori, forts. Det finns en massa räkneregler för att få fram vad man vill:

9 9e december 2003Statistiska metoder & IR9 Ett exempel: ordklasstaggning Vi vill göra ett program som sätter ut rätt ordklass på varje ord i en text: Träningsdata är en korpus som manuellt kodats med ordklasser enligt något ordklassystem Vi gissar att nya data ”liknar” träningsdata En ny text som skall taggas innehåller ord med olika egenskaper: –Entydiga ord som alltid har samma ordklass –Ambiguösa som haft två eller flera olika ordklasser i träningskorpusen –Okända ord som inte finns i träningsdata

10 9e december 2003Statistiska metoder & IR10 Modellen för ordklasstaggning Det vi vill räkna ut är en sekvens av ordklassetiketter (c 1 …c n ) som maximerar –P (c 1 …c n | o 1 …o n ) Problem: om sekvensen o 1 …o n inte finns i träningsdata blir vår gissade sannolikhet 0 för varje sekvens c 1 …c n En förenkling: Tar tyvärr inte hänsyn till ordens omgivning För grov approximation… Ett nytt försök:

11 9e december 2003Statistiska metoder & IR11 Modellen, forts. Vi vill väga in både sannolikheter av typen: P (substantiv | päron) och ordklassekvenser på något sätt Ett par små trick gör att vi kan hitta en sekvens ordklasser som nästan alltid maximerar P (c 1 …c n | o 1 …o n ) genom att maximera: Ungefär lika med:

12 9e december 2003Statistiska metoder & IR12 Modellen, forts. Nu innehåller formeln sannoliketer av typen: –P (päron | substantiv) –P ( verb | ordet innan är ett pronomen) De första kallas lexikala och de andra kontextuella Dessa kan tas fram smidigt ur en träningskorpus med så kallad ”Maximum Likelihood Estimation”

13 9e december 2003Statistiska metoder & IR13 Hidden Markov Models En så kallad HMM (dold Markovmodell) är just vad vi kommit fram till! Används mycket flitigt inom datalingvistik Sekvensen som maximerar sannolikheten kan räknas fram snabbt och smidigt Kan åskådliggöras som en tillståndsmaskin Sannolikheter för att: –Starta i respektive tillstånd –Hoppa mellan tillstånden –Skicka ut en symbol Vi ser symbolerna men måste gissa tillstånden Kallas ibland för ”Shannon’s Noisy Channel Model”

14 9e december 2003Statistiska metoder & IR14 HMM:er, forts. Modellen används bland annat för: –Ordklasstaggning: Tillstånden är ordklasser Symbolerna är ord –Taligenkänning Tillstånden är ord (eller fonem) Symbolerna är delar av ljudsignalen –Maskinöversättning: Tillstånden är ord i ett språk Symbolerna är ord i det andra språket Låter rätt skumt, men det funkar!

15 9e december 2003Statistiska metoder & IR15 En stokastisk parser Vid parsning brukar inte HMM:er användas Sannoliketer kan läggas till en traditionell parser för att avgöra vilken parsning som är den ”bästa” Kan göras robustare – man tar alltid den bästa men finns ingen bra så finns i alla fall någon!

16 9e december 2003Statistiska metoder & IR16 Information Retrieval Handlar om att lösa flera olika problem: –AltaVista-stilen: ”Ge mig en massa dokument som innehåller orden ”rymdfärjor” och ”färdkost, i slumpvis ordning” –Traditionell IR: ”Ta fram alla dokument som handlar om rymdfärjor och färdkost” ”Ge mig alla dokument som liknar det här dokumentet” –Fråga-svar-system: ”Vem vann franska öppna 1982?” ”Varför var det krig i Ruanda?”

17 9e december 2003Statistiska metoder & IR17 IR, forts. Övriga system och uppgifter –”Ge mig 10 bra nyckelord för det här dokumentet” –”Ta fram en förkortad version av den här texten” Flerspråkiga varianter av ovanstående –Skriv frågor på ett språk och få svar på ett annat –Fråga på ett språk och få dokument på flera språk

18 9e december 2003Statistiska metoder & IR18 IR – Komplikationer Folk är dåliga på att välja bra sökord Många skriver in endast 1-2 ord som fråga Dokumenten man söker i, samt även sökfrågorna, innehåller stavfel Många ord är ambiguösa Dokumenten som är relevanta för en sökfråga kan ha helt olika innehåll i olika domäner Datamängder är ofta ostrukturerade eller på flera olika format

19 9e december 2003Statistiska metoder & IR19 En modell som löser en del av problemen LSI (Latent Semantic Indexing) är en metod att ta vara på underliggande strukturell information i dokumentsamlingar Klassisk IR använder en vektormodell som grupperar dokument med många gemensamma termer Men! –Dokument kan ha samma innehåll men använda olika vokabulär –Termerna i dokumentet är kanske inte de mest representativa LSI använder termernas fördelning i samtliga dokument när man jämför två dokument!

20 9e december 2003Statistiska metoder & IR20 En traditionell vektormodell Börja med en term/dokument-matris, precis som för LSI Likhet mellan dokument kan beräknas med kosinus för vinkeln mellan vektorerna Relevanta termer för ett dokument – de som finns i dokumentet Problem i exemplet på nästa sida: –Termen ”trees” verkar relevant för m- dokumenten men finns inte i m4 –cos(c1, c5)=0 liksom cos(c1, m3)

21 9e december 2003Statistiska metoder & IR21 Litet exempel

22 9e december 2003Statistiska metoder & IR22 Hur funkar LSI? Idén är att hitta latent (underliggande) information som: –Ord 1 och ord 2 förekommer ofta tillsammans så kanske dokument 1 (som innehåller ord 1 ) och dokument 2 (som innehåller ord 2 ) är relaterade? –dokument 3 och dokument 4 har många gemensamma termer, så kanske orden de inte har gemensamt är relaterade?

23 9e december 2003Statistiska metoder & IR23 Hur funkar LSI? Forts. I den klassiska vektormodellen är en dokumentvektor 12-dimensionell och en termvektor 9-dimensionell för exemplet Vi vill projicera dessa vektorer till ett vektorrum med färre dimensioner Ett sätt är att använda ”Singular Value Decomposition” (SVD) Originalmatrisen räknas om till en ny representation bestående av tre matriser

24 9e december 2003Statistiska metoder & IR24 Vad man får X=T 0 S 0 D 0 : X, T 0, S 0, D 0 är matriser

25 9e december 2003Statistiska metoder & IR25 X kan räknas om med m=2 C1C2C3C4C5M1M2M3M4 Human Interface Computer User System Response Time EPS Survey Trees Graph Minors

26 9e december 2003Statistiska metoder & IR26 Vad får vi av SVD? Susan Dumais 1995: “The SVD program takes the ltc transformed term-document matrix as input, and calculates the best "reduced- dimension" approximation to this matrix.” Michael W Berry 1992: “This important result indicates that A k is the best k-rank approximation (in at least squares sense) to the matrix A. Leif 2003: Vad Berry menar är att SVD ger den bästa projektionen från n till k dimensioner, d.v.s. den projektion som bäst bibehåller avståndet mellan vektorer

27 9e december 2003Statistiska metoder & IR27 Ett exempel baserat på tidningsartiklar stefan edberg edberg0.918 cincinnatis0.887 edbergs0.883 världsfemman0.883 stefans0.883 tennisspelarna0.863 stefan0.861 turneringsseger0.859 queensturneringen0.858 växjöspelaren0.852 grästurnering0.847 bengt johansson johansson0.852 johanssons0.704 bengt0.678 centerledare0.674 miljöcentern0.667 landsbygdscentern0.667 implikationer0.645 ickesocialistisk0.643 centerledaren0.627 regeringsalternativet vagare0.616

28 9e december 2003Statistiska metoder & IR28 Efter lite trixande kan vi hitta handbollspersoner istället för politik… bengt-johansson1.000 förbundskapten-bengt-johansson förbundskaptenen-bengt-johansson jonas-johansson0.816 förbundskapten-johansson0.799 johanssons0.795 svenske-förbundskaptenen-bengt-johansson bengan0.786 carlen0.777 bengan-johansson0.767 johansson-andreas-dackell0.765 förlorat-matcherna0.750 ck-bure0.748 daniel-johansson0.748 målvakten-mats-olsson0.747 jörgen-jönsson-mikael-johansson kicki-johansson0.744 mattias-johansson-aik0.741 thomas-johansson0.739 handbollsnation0.738 mikael-johansson0.737 förbundskaptenen-bengt-johansson-valde johansson-mats-olsson0.736 sveriges-handbollslandslag0.736 ställningen-33-matcher0.736

29 9e december 2003Statistiska metoder & IR29 Några möjliga applikationer Automatisk generering av en domänspecifik tesaurus Nyckelordsextraktion från dokument i en dokumentsamling Hitta dokument som liknar varandra Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer

30 9e december 2003Statistiska metoder & IR30 Slut Frågor?


Ladda ner ppt "9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola."

Liknande presentationer


Google-annonser