9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola.

Slides:



Advertisements
Liknande presentationer
Att förstå anonymiteten (översättning från
Advertisements

Att identifiera och utveckla ledare

Talföljder formler och summor
En Dag i Ramadan Ramadan
Jörgen Ohlsson Softronic AB.
Här ser ni några sidor som hjälper er att lösa uppgifterna:
hej och välkomna EKVATIONER Ta reda på det okända talet.
1 Arbetsmarknadsanknytning och övergång till arbete Bertil Holmlund Nationalekonomiska institutionen Uppsala universitet.
PROJEKT TRAPPSTEGET Bilaga 1 PROJEKT TRAPPSTEGET
Barnkonventionen Rätt att utvecklas som person
Konstföreningen Dragning På sista sidan finns konstnärerna för respektive tavla.
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Hela Sverige ska leva Totalrapport. Regeringens bidrag har medverkat till kunskapsförmedling?
Leif Håkansson’s Square Dancer Rotation
Resultat från SWEA Framtidsenkät December Januari 2009 REGION ANALYS: Okänd Korta version 13 april 2009 Kontakt med enkätgruppen:
Projektföljeforskning
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
MEDELVÄRDE, MEDIAN & TYPVÄRDE
Växjö 21 april -04Språk & logik: Kontextfria grammatiker1 DAB760: Språk och logik 21/4: Kontextfria 10-12grammatiker Leif Grönqvist
LANDSTINGSDIREKTÖRENS STAB Regional utveckling BILD 1 Resultat av enkät till landstingspolitiker
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Svenska WebDewey Introduktion
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
Kommunpussel Din uppgift är att sortera de organisatoriska delar på nästa sida på ett sådant sätt att det överensstämmer med hur din kommun är organiserad.
Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
INFÖR NATIONELLA PROVET
Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion
KASAM-13, medelvärden, årskurs 9, 1999
Finländarnas uppfattningar om äldrevården Kirsi Markkanen Utvecklingschef Tehy rf.
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
(2) Avvikelse från std. kostnad (5) Andel inv 65+ med insats (4) Andel 80+ i befolkningen (1) Kronor/ invånare (65+) (3) Kronor/ brukare (6) Ytterfall.
Hittarps IK Kartläggningspresentation år 3.
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
TÄNK PÅ ETT HELTAL MELLAN 1-50
Helhet Händelse Agerande Kunskap om vardagsverksamheten Förståelse av vardagsverksamheten.
1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
Best pictures on the internet 2007 Awards 1http:// Är vänsteralliansen trovärdig i Norrköping.
Barnets rättigheter i Sverige och för alla barn i världen
Student Ekonomi Erik Nygårds Hang-Jin Lee Vina Balaghi Projektarbete 2 732G22 Grunder i statistisk metodik Ht-08.
Enkätresultat för Fritidshem Elever 2014 Skola:Fritidselever, Gillberga skola.
Grundskola Föräldrar 2013 Grundskoleenkät - Föräldrar Enhet:Gillberga skola.
SEO Manager för EPiServer LÅT REDAKTÖRERNA VARA REDAKTÖRER.
Best pictures on the internet 2007 Awards 1http:// (s), (v), och (mp) i Norrköping, gillar inte att vi använder grundlagarna.
Barnets rättigheter i Sverige och för alla barn i världen
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT.
OpCon/xps - A case study. Club2200Page 1 OpCon/xps – A case study Club2200 Magnus Nyman & Hans Forslind.
Växjö universitet: MSIDatabasteori Några exjobbsförslag Leif Grönqvist Språkteknologi & Lingvistik Växjö universitet, GU & GSLT.
Här är ditt liv, Bertil! 15/
Kartminne En serie bilder som ger övning av ”rutinen” Tänk på: –Vart är jag på väg? –Varifrån är kontrollen lättast att ta? –Vilken är sista säkra? –Förenkla.
26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella.
Fråga 1: Om ledamöter i ALF- kommittén har haft personlig fördel avs kommitténs bedömning av deras ansökningar? Fråga 2: Om kvinnliga & manliga ledamöter.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Talteknologi (vt04): Sannolikhetslära och markovmodeller
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
Diskret stokasticitet Projekt 2.3, Talltita
Växjö 14 april -04Språk & logik: Finita automater1 DAB760: Språk och logik 14/4:Finita automater Leif Grönqvist Växjö Universitet.
Presentationens avskrift:

9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola i språkteknologi) Matematiska och systemtekniska institutionen, Växjö universitet Institutionen för lingvistik, Göteborgs universitet

9e december 2003Statistiska metoder & IR2 Min bakgrund : ”4-årig teknisk” (electrical engineering) : M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University : 62 points in mechanics, electronics, etc : Work at the Linguistic department in Göteborg –Various projects related to corpus linguistics –Some teaching on statistical methods (Göteborg and Uppsala), –and corpus linguistics in Göteborg, Sofia, and Beijing 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases : Work at the department of Informatics in Göteborg (the Internet Project) : PhD Student in Computer Science / Language Technology

9e december 2003Statistiska metoder & IR3 Mina forskningsintressen Statistiska metoder i språkteknologi –Dolda Markovmodeller –Korpuslingvistik (Jens) –Maskininlärning (Torbjörn) –Vektorrymdsmodeller för lagring av semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid träning

9e december 2003Statistiska metoder & IR4 Statistik i datalingvistikens tjänst Problem med traditionella metoder –Parsrar ger ibland 1000-tals analyser för ganska normala meningar. Vilken är den rätta? –Hur analyserar man saker man aldrig sett förut? –Hur gör man regler för något man inte vet hur det fungerar? –En del taggare/parsers ger ibland inget svar alls! Många problem kan lösas med statistik

9e december 2003Statistiska metoder & IR5 Statistik i datalingvistik, forts. Egentligen inte statistik utan sannolikhetsteori Vi bygger en modell med en viss kunskap och låter slumpen fylla i resten Parametrar gissas utifrån så kallad träningsdata Sedan utgår man ifrån att träningskorpusen är representativ för språket Den analys med högst sannolikhet antas vara den rätta Statistiskt/sannolikhetsteoretiska metoder kallas ofta för stokastiska – ett annat ord bara

9e december 2003Statistiska metoder & IR6 Sannolikhetsteori Handlar om att räkna ut hur stor chans det är att något inträffar givet en viss världskunskap Sannolikheten P (Händelse | Kunskap): –Ett tal mellan 0 och 1 0: inträffar aldrig 1: inträffar alltid annars: man vet bara hur troligt det är Exempel på sannolikheter: –P (femma är man kastar en tärning) –P (det blir soligt imorgon) –P (det blir regn imorgon | det var soligt igår) –P (nästa ord jag säger är ”päronsoda”)

9e december 2003Statistiska metoder & IR7 Några grundbegrepp Försök: en process som kan ha olika utfall Utfall: resultatet av ett försök Utfallsrum: Mängden av alla möjliga utfall Händelse: Delmängd av utfallsrummet Likformig fördelning: alla utfall är lika sannolika –Sannolikhetsteori med denna förutsättning uppfylld kallas kombinatorik. Exempel: lotto, stryktips, poker Betingad sannolikhet: en sannolikhet beräknad utifrån någon viss kunskap Beroende händelser: händelser vars sannolikheter påverkas av varandras utfall

9e december 2003Statistiska metoder & IR8 Sannolikhetsteori, forts. Det finns en massa räkneregler för att få fram vad man vill:

9e december 2003Statistiska metoder & IR9 Ett exempel: ordklasstaggning Vi vill göra ett program som sätter ut rätt ordklass på varje ord i en text: Träningsdata är en korpus som manuellt kodats med ordklasser enligt något ordklassystem Vi gissar att nya data ”liknar” träningsdata En ny text som skall taggas innehåller ord med olika egenskaper: –Entydiga ord som alltid har samma ordklass –Ambiguösa som haft två eller flera olika ordklasser i träningskorpusen –Okända ord som inte finns i träningsdata

9e december 2003Statistiska metoder & IR10 Modellen för ordklasstaggning Det vi vill räkna ut är en sekvens av ordklassetiketter (c 1 …c n ) som maximerar –P (c 1 …c n | o 1 …o n ) Problem: om sekvensen o 1 …o n inte finns i träningsdata blir vår gissade sannolikhet 0 för varje sekvens c 1 …c n En förenkling: Tar tyvärr inte hänsyn till ordens omgivning För grov approximation… Ett nytt försök:

9e december 2003Statistiska metoder & IR11 Modellen, forts. Vi vill väga in både sannolikheter av typen: P (substantiv | päron) och ordklassekvenser på något sätt Ett par små trick gör att vi kan hitta en sekvens ordklasser som nästan alltid maximerar P (c 1 …c n | o 1 …o n ) genom att maximera: Ungefär lika med:

9e december 2003Statistiska metoder & IR12 Modellen, forts. Nu innehåller formeln sannoliketer av typen: –P (päron | substantiv) –P ( verb | ordet innan är ett pronomen) De första kallas lexikala och de andra kontextuella Dessa kan tas fram smidigt ur en träningskorpus med så kallad ”Maximum Likelihood Estimation”

9e december 2003Statistiska metoder & IR13 Hidden Markov Models En så kallad HMM (dold Markovmodell) är just vad vi kommit fram till! Används mycket flitigt inom datalingvistik Sekvensen som maximerar sannolikheten kan räknas fram snabbt och smidigt Kan åskådliggöras som en tillståndsmaskin Sannolikheter för att: –Starta i respektive tillstånd –Hoppa mellan tillstånden –Skicka ut en symbol Vi ser symbolerna men måste gissa tillstånden Kallas ibland för ”Shannon’s Noisy Channel Model”

9e december 2003Statistiska metoder & IR14 HMM:er, forts. Modellen används bland annat för: –Ordklasstaggning: Tillstånden är ordklasser Symbolerna är ord –Taligenkänning Tillstånden är ord (eller fonem) Symbolerna är delar av ljudsignalen –Maskinöversättning: Tillstånden är ord i ett språk Symbolerna är ord i det andra språket Låter rätt skumt, men det funkar!

9e december 2003Statistiska metoder & IR15 En stokastisk parser Vid parsning brukar inte HMM:er användas Sannoliketer kan läggas till en traditionell parser för att avgöra vilken parsning som är den ”bästa” Kan göras robustare – man tar alltid den bästa men finns ingen bra så finns i alla fall någon!

9e december 2003Statistiska metoder & IR16 Information Retrieval Handlar om att lösa flera olika problem: –AltaVista-stilen: ”Ge mig en massa dokument som innehåller orden ”rymdfärjor” och ”färdkost, i slumpvis ordning” –Traditionell IR: ”Ta fram alla dokument som handlar om rymdfärjor och färdkost” ”Ge mig alla dokument som liknar det här dokumentet” –Fråga-svar-system: ”Vem vann franska öppna 1982?” ”Varför var det krig i Ruanda?”

9e december 2003Statistiska metoder & IR17 IR, forts. Övriga system och uppgifter –”Ge mig 10 bra nyckelord för det här dokumentet” –”Ta fram en förkortad version av den här texten” Flerspråkiga varianter av ovanstående –Skriv frågor på ett språk och få svar på ett annat –Fråga på ett språk och få dokument på flera språk

9e december 2003Statistiska metoder & IR18 IR – Komplikationer Folk är dåliga på att välja bra sökord Många skriver in endast 1-2 ord som fråga Dokumenten man söker i, samt även sökfrågorna, innehåller stavfel Många ord är ambiguösa Dokumenten som är relevanta för en sökfråga kan ha helt olika innehåll i olika domäner Datamängder är ofta ostrukturerade eller på flera olika format

9e december 2003Statistiska metoder & IR19 En modell som löser en del av problemen LSI (Latent Semantic Indexing) är en metod att ta vara på underliggande strukturell information i dokumentsamlingar Klassisk IR använder en vektormodell som grupperar dokument med många gemensamma termer Men! –Dokument kan ha samma innehåll men använda olika vokabulär –Termerna i dokumentet är kanske inte de mest representativa LSI använder termernas fördelning i samtliga dokument när man jämför två dokument!

9e december 2003Statistiska metoder & IR20 En traditionell vektormodell Börja med en term/dokument-matris, precis som för LSI Likhet mellan dokument kan beräknas med kosinus för vinkeln mellan vektorerna Relevanta termer för ett dokument – de som finns i dokumentet Problem i exemplet på nästa sida: –Termen ”trees” verkar relevant för m- dokumenten men finns inte i m4 –cos(c1, c5)=0 liksom cos(c1, m3)

9e december 2003Statistiska metoder & IR21 Litet exempel

9e december 2003Statistiska metoder & IR22 Hur funkar LSI? Idén är att hitta latent (underliggande) information som: –Ord 1 och ord 2 förekommer ofta tillsammans så kanske dokument 1 (som innehåller ord 1 ) och dokument 2 (som innehåller ord 2 ) är relaterade? –dokument 3 och dokument 4 har många gemensamma termer, så kanske orden de inte har gemensamt är relaterade?

9e december 2003Statistiska metoder & IR23 Hur funkar LSI? Forts. I den klassiska vektormodellen är en dokumentvektor 12-dimensionell och en termvektor 9-dimensionell för exemplet Vi vill projicera dessa vektorer till ett vektorrum med färre dimensioner Ett sätt är att använda ”Singular Value Decomposition” (SVD) Originalmatrisen räknas om till en ny representation bestående av tre matriser

9e december 2003Statistiska metoder & IR24 Vad man får X=T 0 S 0 D 0 : X, T 0, S 0, D 0 är matriser

9e december 2003Statistiska metoder & IR25 X kan räknas om med m=2 C1C2C3C4C5M1M2M3M4 Human Interface Computer User System Response Time EPS Survey Trees Graph Minors

9e december 2003Statistiska metoder & IR26 Vad får vi av SVD? Susan Dumais 1995: “The SVD program takes the ltc transformed term-document matrix as input, and calculates the best "reduced- dimension" approximation to this matrix.” Michael W Berry 1992: “This important result indicates that A k is the best k-rank approximation (in at least squares sense) to the matrix A. Leif 2003: Vad Berry menar är att SVD ger den bästa projektionen från n till k dimensioner, d.v.s. den projektion som bäst bibehåller avståndet mellan vektorer

9e december 2003Statistiska metoder & IR27 Ett exempel baserat på tidningsartiklar stefan edberg edberg0.918 cincinnatis0.887 edbergs0.883 världsfemman0.883 stefans0.883 tennisspelarna0.863 stefan0.861 turneringsseger0.859 queensturneringen0.858 växjöspelaren0.852 grästurnering0.847 bengt johansson johansson0.852 johanssons0.704 bengt0.678 centerledare0.674 miljöcentern0.667 landsbygdscentern0.667 implikationer0.645 ickesocialistisk0.643 centerledaren0.627 regeringsalternativet vagare0.616

9e december 2003Statistiska metoder & IR28 Efter lite trixande kan vi hitta handbollspersoner istället för politik… bengt-johansson1.000 förbundskapten-bengt-johansson förbundskaptenen-bengt-johansson jonas-johansson0.816 förbundskapten-johansson0.799 johanssons0.795 svenske-förbundskaptenen-bengt-johansson bengan0.786 carlen0.777 bengan-johansson0.767 johansson-andreas-dackell0.765 förlorat-matcherna0.750 ck-bure0.748 daniel-johansson0.748 målvakten-mats-olsson0.747 jörgen-jönsson-mikael-johansson kicki-johansson0.744 mattias-johansson-aik0.741 thomas-johansson0.739 handbollsnation0.738 mikael-johansson0.737 förbundskaptenen-bengt-johansson-valde johansson-mats-olsson0.736 sveriges-handbollslandslag0.736 ställningen-33-matcher0.736

9e december 2003Statistiska metoder & IR29 Några möjliga applikationer Automatisk generering av en domänspecifik tesaurus Nyckelordsextraktion från dokument i en dokumentsamling Hitta dokument som liknar varandra Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer

9e december 2003Statistiska metoder & IR30 Slut Frågor?