Talteknologi (vt04): Sannolikhetslära och markovmodeller

Slides:



Advertisements
Liknande presentationer
Naturvetenskap.
Advertisements

Sorteringslek i skogen
Djur Vilket djur ska bort?
Föreläsning 7, Kapitel 7 Designa klasser Kursbok: “Objects First with Java - A Practical Introduction using BlueJ”, David J. Barnes & Michael Kölling.
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Exempel Utifrån medicinsk erfarenhet är 5% av befolkningen smittade av ett visst virus. Ett nytt test har visat sig ge 80% av de smittade korrekt diagnos.
Inklusion av placerade barn Nyborg 28 augusti 2012
Statistikens grunder, 15p dagtid
DAB752: Algoritmteori Leif Grönqvist
Teori.
Växjö 21 april -04Språk & logik: Kontextfria grammatiker1 DAB760: Språk och logik 21/4: Kontextfria 10-12grammatiker Leif Grönqvist
Växjö 22 april -04Språk & logik: Parsning med kontextfria grammatiker1 DAB760:Språk och logik: 22 aprilParsning Leif Grönqvist
Antiken Renässansen Nittonhundratalet Framtiden
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Klockan Olimpia Pandelara Zackrisson, Kvarnbackaskolan sär, Kista –
KLASS 4A. Huddingeolympiaden Klass 4a deltog i Huddingeolympiaden 18/4. Vi fick 83 poäng. Man kunde delta i längdhopp, kula och 60 m. Varje elev fick.
Statistikens grunder, 15p dagtid
Statistikens grunder, 15p dagtid
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
MaB: Sannolikhetslära
Aktivt lyssnade.
Steg 3 – Mötet RUTINER FÖR VÅRT ARBETSMILJÖARBETE
PerUllaIngaEgon 1.Skriv in de tävlandes namn. 2. Per börjar slå med två tjugosidiga tärningar. Han får 15 och 5. Gränsvärdet för första höjden är =10,
Workshop i statistik för medicinska bibliotekarier!
Föreläsning 2: Grundläggande informationsteori
Spelteori.
Procent.
Sammanfatta siffrorna…
Introduktion sannolikhet
FK2002,FK2004 Föreläsning 2.
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
F. Drewes, Inst. f. datavetenskap1 Föreläsning 11: Funktionella språk Funktioner och variabler i matematiken Funktionella språk LISP, ML och.
Övningsexempel till Kapitel 4
Föreläsning 5Forskningsmetodik 2005 Forskningsmetodik lektion 6.
Föreläsning 4: Sannolikhetslära
Sannolikhet Stickprov Fördelningar
Simulering Introduktion Exempel: Antag att någon kastar tärning
MATTAJM!!! LITE FRÅGOR? ÅTERVINNING? VAD KAN DU GÖRA? VAD KAN VI GÖRA TILLSAMMANS FÖR ATT KLIMATET SKA BLI BÄTTRE? VAD KAN VARJE.
Övningsexempel till Kapitel 3 Ex 1: En familj planerar att skaffa tre barn. Sannolikheten att få en flicka är 0.47 medan sannolikheten att få en pojke.
Normalfördelningen och centrala gränsvärdessatsen
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Spektrala Transformer
Mål Matematiska modeller Biologi/Kemi Statistik Datorer
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Växjö 22 april -04Språk & logik: Introduktion till labb 11 DAB760:Språk och logik: 22 aprilLabbintroduktion Leif Grönqvist
Växjö 14 april -04Språk & logik: Finita automater1 DAB760: Språk och logik 14/4:Finita automater Leif Grönqvist Växjö Universitet.
Forskningsmetodik lektion
Dagens ämnen ● Potensserier ● Definition ● Var konvergerar potensserien ● Räkning med potensserier ● Derivering ● Integrering ● Maclaurinserier.
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
Arbetsmarknadspolitiska insatser för kvinnor och män Hur effektiva är programinsatser utifrån ett könsperspektiv? - Några aspekter Jonas Månsson Linnéuniversitetet.
Föreläsning 4 732G81. Kapitel 4 Sannolikhetsfördelningar Sid
Betingade sannolikheter. 2 Antag att vi kastar en tärning och noterar antalet prickar som kommer upp. Låt A vara händelsen ”udda antal prickar”, dvs.
Diskreta slumpvariabler. Stokastiskvariabel En slumpvariabel (stokastisk variabel) är en Funktion eller regel som tilldelar ett tal till varje Utfall.
1. Kontinuerliga variabler
1 I. Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet.
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
KAP 5 – SANNOLIKHETSLÄRA OCH STATISTIK
X Sannolikhet Om man kastar en sexsidig tärning kan det bli sex olika utfall. Sannolikheten är lika stor för varje utfall.
X Relativ frekvens Martin och farfar tävlar mot varandra i vem som kan slå flest sexor. Båda registrerar sina kast i ett stolpdiagram och.
Statistikens grunder, 15p dagtid
Grundlägande statistik,ht 09, AN
Grundl. statistik F2, ht09, AN
KAP 5 – SANNOLIKHETSLÄRA OCH STATISTIK
Föreläsningsanteckningar till:
STATISTIK OCH SANNOLIKHETER
Mängdlära Kombinatorik Sannolikhetsteori
Hit har vi kommit! Nu går vi vidare!.
De tävlande börjar med att skriva in sina namn i resultattabellen.
Y 5.1 Hur stor är sannolikheten?
Presentationens avskrift:

Talteknologi (vt04): Sannolikhetslära och markovmodeller Leif Grönqvist GSLT, MSI@VxU, Ling@GU

Sannolikhetsteori Vad är sannolikhetsteori? Vad behöver vi det till? Teori för att hantera osäkerhet Beräkna värden på hur troligt det är att något inträffar Definition genom relativ frekvens Vad behöver vi det till? Bra för att modellera allt för komplexa proceser: språk! Eller för att bli bättre på Roulette, Black Jack, Poker…

Viktiga begrepp Experiment/Försök (experiment/trial): processen med vilken en observation görs. Exempel: Kasta tärning och se vad det blev Titta ut genom fönstret varje dag klockan 12 tills den dag det regnar och se hur många dagar det tog Utfall (basic outcome): ett resultat av ett försök. Exempel: ”femma”, ”trea” 8 dagar, 0 dagar Utfallrum (sample space): mängden av alla utfall (Ω). Exempel: {”etta”, ”tvåa”, ”trea”, ”fyra”, ”femma”, ”sexa”} {0, 1, 2, …}

Utfallsrummet Egenskaper hos utfallsrummet: Diskret / kontinuerlig Ändligt / oändligt Diskret Kontinuerlig Ändligt Tärning - Oändligt Regnexemplet Kasta spjut

Fler begrepp Händelse (event): en delmängd av utfallsrummet. Exempel: {“femma”, “sexa”} {1, 2, 3} Händelserum (event space): mängden av alla delmängder av utfallsrummet (potensmängden av Ω), benämns 2Ω Hur stort är händelserummet för tärningsexemplet?

Fler begrepp Frekvensfunktion (probability function): P(x) = P(X=x), exempel: P({“femma”, “sexa”}) = 1/3 Täthetsfunktion (för kontinuerliga sannolikheter), exempel: P(20<X<40) = ytan under kurvan från 20 till 40 Några axiom: P(Ω) = 1 P(x) = 0 omm “x inträffar aldrig” P(x) = 1 omm “x inträffar alltid” 0≤P(x)≤1 för alla händelser x

Räkneregler AB =   P(A B) = P(A)+P(B) Exempel från boken Exempel: A={“etta”, tvåa”}, B={“fyra”, “femma”} Exempel från boken Kasta ett mynt tre gånger. Hur stor chans är det att vi får exakt två “klavar” [på tavlan]

Betingade sannolikheter Kallas också beroende sannolikheter eller a posteriori-sannolikheter (att jämföra med a priori-sannolikheter Definition: Kallas multiplikationsregeln

Bayes regel Ur multiplikationsregeln följer Bayes regel: Bra att ha om P(A|B) är lättare än P(B|A) att beräkna

Exempel med Bayes regel S: Har stel nacke M: Har Meningitis (farlig sjukdom) P(S|M) = ½, P(M) = 1/50000, P(S) = 1/20 Bör man vara orolig om man är stel i nacken?

Bayes regel i datalingvistiken Ofta vill man beräkna P(A|B) men P(B|A) är mycket lättare att beräkna: Vi kanske vill hitta B så att P(A|B) maximeras:

Bayes regel i datalingvistiken, forts. Eftersom A är konstant under maximeringen kan vi förenkla: Denna formel är grunden för en vanlig form av ordklasstaggning, taligenkänning, maskinöversättning

Stokastiska variabler Lite förvillande benämning eftersom de faktiskt är funktioner: X : Ω  R (R är de reella talen) En diskret stokastisk variabel: Y : Ω  S (S är en uppräknerlig delmängd av R) Exempel: kasta två tärningar och summera: Ω={”11”, ”12”, ”21”, …, ”66”} S={2, 3, …, 12} pmf: en funktion som ger sannolikheten för elementen i S, benämns ofta p(x) Exempel: två tärningar [på tavlan]

Väntevärde Definieras: Skrivs ofta µ Exempel: en tärning [på tavlan] Vad är det egentligen? Jo ett medelvärde!

Varians Var(X) = E((X- µ)2) eller: µ, dvs E(X) är medelvärdet Var(X) är ett mått på hur mycket X varierar Ett ofta använt mått är standaravvikelse: Var(X) skrivs ofta 2 Exempel: två klassers tentaresultat [på tavlan]

Fördelningar Sättet “sannolikhetsmassan” är fördelad över Ω Likformig fördelning (uniform distribution) Alla element i Ω har samma sannolikhet P(x)=1/| Ω| Exempel: en tärning. Normalfördelning (normal distribution) Gauss ”Klockkurva” – resultatet av många små avvikelser Exempel: släpp en boll från ett flygplan Beräknas med parametrarna: µ och 

Kombinatorik Sannolikhetsteori för likformiga fördelningar Enkelt att beräkna sannolikhet som antalet gynnsamma utfall delat med totala antalet utfall En vanlig modell: En urna med kulor (eventuellt numrerade, olikfärgade) Tag upp ett antal kulor och notera deras nummer/färg Lägg tillbaka kulan eller inte Notera ordningen de dras i eller inte Resulterar i fyra kombinationer

Kombinatorik, fyra fall Med återläggning, notera ordningen Stryktips Utan återläggning, notera inte ordningen Lotto Med återläggning, notera inte ordningen Utan återläggning, notera ordningen

De fyra fallen Räkna antalet sätt att välja k kulor ur en urna med n

En Markovmodell En tillståndsmaskin Man kan beräkna S={s1, s2, …, sN}: en mängd tillstånd ={S1, S2, …, SN}: initialsannolikheter A={aij}, i,j tas från S: transitionssannolikheter X är en tillståndssekvens Man kan beräkna Sannolikheten för en tillståndssekvens X Troligaste tillstånd i tidpunkt t … Ett exempel [på tavlan]

En dold Markovmodell (HMM) Vi lägger till observerade symboler tagna ur ett alfabet K = {k1, k2, …, kM} Sannolikheter för att emittera en given symbol: B={bijk}, i,j tas från S, k från K O är en sekvens av symboler Samt tänker oss att tillståndssekvensen är osynlig Tre viktiga uppgifter kan urskiljas: Beräkna sannolikheten för en symbolsekvens O givet en modell Beräkna den troligaste tillståndssekvensen givet en symbolsekvens O (Viterbi-algoritmen!) Givet en symbolsekvens O, ta fram sannolikheter som bäst förklarar O

HMM-exempel En observationssekvens: Alfabetet: K={får, man, tacka, “.”} Tillstånd: S={nn, vb, pn, dl} Transitionssannolikheter: anndl=0,29, … [OH] Emmisionssannolikheter: annfår=1.2e-4, … [OH] får man tacka .