Simulering Introduktion Exempel: Antag att någon kastar tärning

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Föreläsning 3 25 jan 2010.
Talföljder formler och summor
MaB: Andragradsfunktioner
Novus Allmänheten om regional identitet i Dalarna (Del A) November Peter Blid Helena Björck Ida af Robson 2064.
Föreläsning 6 Slumptal Testa slumptal Slumptal för olika fördelningar
F3 Matematikrep Summatecknet Potensräkning Logaritmer Kombinatorik.
Point Estimation Dan Hedlin
Kjell Prytz, Högskolan i Gävle,
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Ruttplanering Vad är det??.
Klusterurval, forts..
Exempel Utifrån medicinsk erfarenhet är 5% av befolkningen smittade av ett visst virus. Ett nytt test har visat sig ge 80% av de smittade korrekt diagnos.
Numeriska beräkningar i Naturvetenskap och Teknik
Numeriska beräkningar i Naturvetenskap och Teknik
Funktioner och programorganisation
Användande av hjälpinformation: Kvotskattning
Statistikens grunder, 15p dagtid
Föreläsning 15 Matlab överkurs KTH, CSC, Vahid Mosavat.
Föreläsning 7 Analys av algoritmer T(n) och ordo
Teori.
Datastrukturer och algoritmer Föreläsning 11. Datastrukturer och algoritmer VT08 Innehåll  Mängd  Lexikon  Heap  Kapitel , , 14.4.
Inferens om en ändlig population Sid
Tentamensdags och lab 3…. Större program delas normalt upp i flera filer/moduler vilket har flera fördelar:  Programmets logiska struktur när man klumpar.
Grundläggande programmering
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Statistikens grunder, 15p dagtid
Tentamensdags och lab 3…. Större program delas normalt upp i flera filer/moduler vilket har flera fördelar:  Programmets logiska struktur när man klumpar.
(Några begrepp från avsnitt 14.2)
Föreläsning 4 Kö Implementerad med array Implementerad med länkad lista Djup kontra bredd Bredden först mha kö.
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Grundlägande statistik,ht 09, AN1 F5 Kombinatorik (KW 1.6) Ex.: På en matsedel finns tre förrätter, två huvudrätter och två efterrätter. På hur många olika.
Skattningens medelfel
Introduktion sannolikhet
Grundläggande programmering
Diskreta, deterministiska system Projekt 1.2; Vildkatt
Centrala Gränsvärdessatsen:
FK2002,FK2004 Föreläsning 2.
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
732G22 Grunder i statistisk metodik
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Övningsexempel till Kapitel 4
Binomialsannolikheter ritas i ett stolpdiagram
Egenskaper för punktskattning
1 Kapitel 9 Interval Estimation Dan Hedlin. 2 Konfidensintervall vanligast för ”location problems”, dvs k.i. för medelvärde o.d. K.i. för t.ex. standardavvikelse.
Täthetsfunktion f(x) (”pdf”) Och fördelningsfunktion F(x) (”cdf”)
Sannolikhet Stickprov Fördelningar
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Hur bra är modellen som vi har anpassat?
Normalfördelningen och centrala gränsvärdessatsen
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Slumptal Pseudoslumptal Fysikexperiment 5p Föreläsning 2
Diskret stokasticitet Projekt 2.3, Talltita
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
Lars Madej  Talmönster och talföljder  Funktioner.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Betingade sannolikheter. 2 Antag att vi kastar en tärning och noterar antalet prickar som kommer upp. Låt A vara händelsen ”udda antal prickar”, dvs.
Diskreta slumpvariabler. Stokastiskvariabel En slumpvariabel (stokastisk variabel) är en Funktion eller regel som tilldelar ett tal till varje Utfall.
1. Kontinuerliga variabler
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Grundlägande statistik,ht 09, AN
Grundl. statistik F2, ht09, AN
Presentationens avskrift:

Simulering Introduktion Exempel: Antag att någon kastar tärning a) Vad är sannolikheten att på fyra kast få två sexor? b) Vad är sannolikheten att på 100 kast få mellan 10 och 15 sexor och där summan av de 50 första kasten är mellan 165 och 185? a) P(”två sexor på fyra kast”) = b) P(” ”) Löses analytiskt

Simuleringsstudie Kasta 100 kast många gånger och räkna antalet gånger då villkoret är uppfyllt. Skatta sannolikheten med relativa frekvensen, dvs (antalet lyckade / totala antalet kast) Utnyttja dator Bilda slumptal Vad är ett slumptal?

Generering av likformigt fördelade slumptal Hur kan vi bilda ett slumptal som ligger mellan noll och ett? Slumptal - Pseudoslumptal ”Det går aldrig att konstruera riktiga slumptal” Kongruensgeneratorer Diskreta stokastiska variabler - tabellmetoden Kontinuerliga - Inversmetoden 0 1 2 3 4 1

Slumptal - Pseudoslumptal Kongruensgenerator utnyttjar rekursion Där a,b,m och xn är heltal x0 är startvärde vilket betyder att Sätt som ger oss att ui är nu ett pseudoslumptal från U(0,1)

Egenskaper a) När ett xi återkommer upprepar sig följden periodiskt Ex: Periodlängden beror på startvärdet x0!

b) (Knuth 1991) Full periodlängd erhåller man om 1) b och m ej har någon annan gemensam faktor än 1. 2) (a-1) är en multipel av varje primtal som delar m 3) (a-1) är en multipel av 4 om m är det

Ex: a = 3, b = 7, m = 9 Villkor 2 ej uppfyllt för full periodlängd! Ex: a = 4, b = 7, m = 9 Alla villkor uppfyllda!

Ex: IBM:s generator Periodlängd 231-2 … eftersom Implementering av IBM:s generator Antagligen vanligast med 32 bitars dator. Problem med 16807 xn ! Krav på mer än 32 bitars ordlängd.

Recept! Gör enligt följande Sätt W = 127773 C = 231 - 1 - 16807• 127773 = 2836 Bilda Kommer alltid vara 231-1 heltalsdelen Om xn+1 < 0 sätt xn+1 + 231-1 Låt un = xn / (231-1)

Generering av slumptal från andra fördelningar Diskreta fördelningar Bin(1,p) dvs Teknik: Generera ett slumptal U från U(0,1) sätt X=0 X=1 1-p 1

X är ett slumptal från Bin(1,p) eftersom Bin(n,p). Om Xi Bin(1,p), i=1,2,…,n samt oberoende så är Generera n st Bin(1,p) slumptal enligt ovan och sätt så kommer Y vara ett slumptal från Bin(n,p).

Alternativ: Tabellmetoden Ex: Generera slumptal från XBin(5,0.3) P(X=0) = 0.17 P(X=1) = 0.36 P(X=2) = 0.31 P(X=3) = 0.13 P(X=4) = 0.03 P(X=5) = 0.002 0.00 0.17 0.83 0.53 X=0 X=4 X=3 X=2 X=1 X=5 1.00 Generera ett slumptal från UU(0,1) och kontrollera vilket intervall det hamnade i.

Tillämpningar Hur finner vi arean av sjön? Använd millimeterpapper och räkna eller utnyttja planinometer. Simulering: Slumpa ut N punkter i kvadraten K, dvs iid U(0,a) som x och y koordinater. Räkna antalet punkter som faller inom sjön, NS och uppskatta sjöarean med AK • NS / N = AK • Eftersom NS får vi att E[ ] = E[NS/N] = N •PS / N = PS V[ ] = N-2 V[NS] = N-2 N PS (1 - PS) = P(1-P)/N

Och om vi utnyttjar CGS, (giltigt om NP(1-P) > 10 tex) kan vi konstruera konfidensintervall för vår skattning, dvs AK • En nackdel är dock att om man inte kan precisera konturen av sjön matematiskt är det lite svårt att implementera metoden på dator… Integralskattning En integral kan ganska lätt skattas mha simulering. Integralen kan uppfattas som arean mellan x-axeln och kurvan y = g(x). Simulera U1, U2, …, UN pseudoslumptal och skatta integralen med

Det fungerar eftersom E[g(U)] = Tänk på att arean under kurvan är lika med medelhöjden på kurvan. Variansen för skattningen blir då Utnyttja CGS, och du kan göra konfidensintervall

Ex: Antag att vi vill bestämma integralen

Det enklaste : ) är givetvis nu att integrera och bestämma den. Men man skulle även kunna använda sig av den ovan nämnda tekniken, dvs att utnyttja simulering till att skatta integralen. Eftersom vårt g(x) nu är lika med integralen ovan dvs väljer vi f(x) så att

Således, om vi väljer f(x) = 1/5 så är detta uppfyllt. En simuleringskörning med 10000 U(0,5) ger Vi kan notera att sant värde är 525.4 Dock, en väldigt användbar teknik för komplicerade integraler. Vilken sats bygger det här på?

Kontinuerliga fördelningar Inversmetoden Antag att vi vill generera slumptal från en fördelning med fördelningsfunktion F, vars invers F-1(U) är definierad på (0,1). Sats: Om UU(0,1) så har den stokastiska variabeln X = F-1(U) fördelnings- funktionen F. Man kan inse det på följande sätt X = F-1(U)  P(X≤x) = P( F-1(U) ≤x ) = P(U ≤F(x)) = F(x), eftersom P(U ≤a) = a

Inversmetoden. Om fördelningsfunktionen har en enkel invers kan vi utnyttja detta! Om X  Exp(m) dvs X är exponentialfördelad med fördelningsfunktion FX(x) = 1 - e -x / m, x≥0 Vi har och om vi använder oss av inversmetoden, dvs lös ut X Dvs generera ett slumptal U från U(0,1). Sätt in U i -m ln(1-U) = X. X är vårt slumptal!

Normalfördelningen låter sig å andra sidan inte inverteras så enkelt. Det finns snabbvarianter… trots det. Utnyttja CGS Bilda Enligt CGS är nu

Ger dock ”bara” normalfördelade slumptal mellan (-6,6). Vad är 1-P(-6<X<6)? 2 9.886 10-10, dvs ungefär 2 10-9. Mer komplicerad variant Lite teori: Låt N1 och N2 vara oberoende N(0,1). Paret(N1,N2) definierar en punkt i två dimensioner Transformationen från kartesiska koordinater till polära koordinater ges av N1 = R cos  N2 = R sin  och transformationen är 1-1.

Alla partiella derivator är kontinuerliga vilket betyder att vi kan skriva simultana täthetsfunktionen som Så man kan plocka fram simultana fördelningsfunktionen för R och 

Så… Vi ser att R och  är oberoende sv med

Ok, nu till metoden (Box-Muller) Ger oss två oberoende normalfördelade slumptal Ok. Visa nu detta! Obs jag skämtar…

Polar Marsaglia metoden bygger på samma idé men hoppar över Användandet av trigonometriska funktioner (cosinus och sinus). Algoritm: 1. Generera U1 och U2 från U(0,1) och bilda 2. Sätt R = V12 + V22 Om R > 1 gå tillbaka till 1. 3. Sätt N1 och N2 är två oberoende slumptal från N(0,1)

Test av slumptalsgeneratorer Pokertest Betrakta en följd U1, U2, …, U5k, där varje Ui är ett slumptal som är likformigt fördelat på 0, 1, 2, …, 9. Dela upp följden i k st 5-tupler (U1, U2,…, U5), (U6, …, U10),…, (U5k-4, …, U5k) Bland dessa k st 5-tupler, räkna antalet av typen Typ Antal Sannolikhet Alla olika: a b c d e x1 P1 = P(alla olika) ett par: a a b c d x2 P2 två par: a a b b c x3 P3 triss: a a a b c x4 osv kåk: a a a b b x5 fyrtal: a a a a b x6 femtal: a a a a a x7

Formulera nu en hypotes som man brukar kalla för Nollhypotes H0 H0: Slumptalsgeneratorn genererar likformigt fördelade slumptal mellan 0 och 1 ( U(0,1)). För att nu testa H0 används ett sk ”Chi-två test”, 2 -test. 2 -test metoden. Antag att n ( i vårt fall n = 5k ) stycken oberoende försök har utförts. Varje försök kan resultera i r st olika utfall; A1,A2,…,Ar med sannolikheter p1,p2, …,pr. Låt x1,x2, …,xr vara de observerade antalet utfall på A1,A2,…,Ar.

P1,p2, …,pr antas vara okända och man vill testa en viss hypotes rörande dessa sannolikheter, dvs H0: p1 = p1*, p2 = p2*, …, pr = pr* Konstruera en sk testvariabel Här är n antalet olika utfall som vi kan konstruera, dvs antalet 5-tupler i föregående exempel.

För att nu avgöra om vår generator ger bra ”slumptal” jämför vi vår testvariabel med ett tabellvärde från 2 -fördelningen

Man bestämmer då en gräns för när man inte tror att generatorn ger likformiga slumptal, dvs förkasta H0 om där  = signifikansnivån. I pokertest testas H0 med Arean =  Förkasta H0 om  = signifikansnivån, och den måste man välja själv. Det är vanligt med  = 0.05, 0.01, 0.001.

Gap-test Låt  och  vara två reella tal sådana att Betrakta längden av delföljder Uj, Uj+1, …, Uj+r där Uj+r  (, ) men där Uj, Uj+1, …,Uj+r-1  (, ). Ui pseudoslumptal från U(0,1) Ex: =0.2, =0.5 Bestäm gaplängderna. Vi håller på tills vi fått n st gap U1=0.023 U2=0.354 U3=0.462 U4=0.791 U5=0.553 U6=0.304 U7=0.212 U8=0.893 U9=0.491 1 2

Räkna hur många ”gap” man fått av längd 0,1,2, …., ≥ t Sätt p = β – α (Sannolikhet att hamna i intervall (, ) ) Låt pj = P(”gap”-längden är j) Då blir (geometrisk fördelad) pj = p (1-p)j pt = P(”gap”-längden är  t) = p(1-p)t + p(1-p)t+1 + … = = p(1-p)t (1+(1-p)+(1-p)2+ …) = Testa med Q = Och jämför om

Man bör se till att n, t, och p är sådana att npi > 5 för alla ”gap” storlekar. Typiskt fall för Gap-testet är  = 0, β = 0.1 Många dåliga generatorer ger alldeles för många gap med ”för kort” längd Allmänt gäller vid dessa 2-test att npi > 5.

Permutationstest Betrakta en talföljd U1, U2, …, där Ui är slumptal från U(0,1) Dela in talföljden i t-tupler (U1, …,Ut), (Ut+1, …,U2t), … Map storleksföljden kan varje t-tupel vara ordnad på t! sätt. Ex: t = 3, t! = 3! = 6 U1 < U2 < U3 U1 < U3 < U2 U2 < U1 < U3 U2 < U3 < U1 U3 < U1 < U2 U3 < U2 < U1 Varje ordningsföljd har sannolikhet 1/t! (1/6) att erhållas. Bilda n st t-tupler och dela in i t! klasser. Testa med 2-test!