Presentation laddar. Vänta.

Presentation laddar. Vänta.

Föreläsning 4 732G81. Kapitel 4 Sannolikhetsfördelningar Sid 79-124.

Liknande presentationer


En presentation över ämnet: "Föreläsning 4 732G81. Kapitel 4 Sannolikhetsfördelningar Sid 79-124."— Presentationens avskrift:

1 Föreläsning 4 732G81

2 Kapitel 4 Sannolikhetsfördelningar Sid 79-124

3 3 Slumpvariabel En variabel för vilken slumpen bestämmer hur ofta respektive värde i utfallsrummet antas. Väntevärde: Varians: Standardavvikelse: 3 Exempel: Slantsingling, tärningskast, längden på en slumpmässigt utvald person

4 4 Exempel Vinstplanen för en normalserie om 16 miljoner Trisslotter ser ut på följande sätt. 4 Vinst (kr)AntalVinst (kr)Antal 250000087501200 100000085001600 250000402504000 20000082003600 1000001615010000 200001610075200 1000032075238400 20001120501672800 10001680251336000

5 5 Exempel (forts) Låt X = vår vinst på lotten Utfallsrummet för X och sannolikheten för respektive händelse kan då uttryckas enligt och vi beräknar väntevärdet för vinst på en lott enligt X 25000001000000250000…5025 p(x)p(x) …

6 6 Linjära variabeltransformationer Låt X vara en variabel med väntevärde E(X) och standardavvikelse σ X och låt en annan variabel Då gäller att 6 Exempel: Svenska Spel funderar på att höja priset på en Trisslott till 30 kr och samtidigt öka vinsterna med 40 procent. Vad blir den förväntade vinsten efter denna förändring? X = vinsten på trisslott före avdraget lottpris Vi vet att E(X) = 12.25 Y = vinst på trisslott efter förändring och efter avdraget lottpris

7 7 Sannolikhetsfördelning Sammanställning av vilka värden en slumpvariabel kan anta och sannolikheten för respektive värde antas. Genom att på teoretisk väg eller genom att studera ett stickprovs fördelning för en variabel kan vi härleda variabeln till att tillhöra en viss sannolikhetsfördelning. Detta möjliggör annars mycket komplicerade sannolikhetsberäkningar vilket i sin tur ger möjlighet att dra slutsatser om populationen som stickprovet dragits ur.  Diskret sannolikhetsfördelning: när slumpvariabeln endast kan anta heltalsvärden  Kontinuerlig sannolikhetsfördelning: när slumpvariabeln kan mätas med flera decimalers noggrannhet 7

8 8 Diskret sannolikhetsfördelning Diskreta sannolikhetsfördelningar är sannolikhetsfördelningar för slumpvariabler som endast kan anta heltalsvärden. De vanligaste diskreta sannolikhetsfördelningarna är uppbyggda av ett eller flera delförsök och för varje delförsök studerar vi om experimentet har lyckats eller inte. Varje delförsök sägs följa Bernoullifördelningen men man använder även beteckningen tvåpunktsfördelning eller säger att utfallet av varje delförsök är binärt. Innebörden är att varje delförsök endast kan anta ett av två möjliga värden (lyckat eller misslyckat delförsök). 8 Exempel: Vi definierar händelsen A = sex ögon upp vid tärningskast och kastar en tärning. Varje tärningskast är då ett delförsök som antingen kan lyckas (sex ögon upp) eller inte lyckas (ej sex ögon upp) och kan därmed betraktas som Bernoullifördelat.

9 9 Binomialfördelning Låt X vara en slumpvariabel. Givet att följande krav är uppfyllda: 1.alla delförsök är oberoende av varandra (innebörd: sannolikheten för ett visst utfall är densamma för alla delförsök) 2.varje delförsök är Bernoullifördelat gäller att X är binomialfördelad vilket uttrycks X ~ bin(n; π) Sannolikheten för k lyckade utfall bland n beräknas då enligt 9 Exempel: Grobarheten hos en viss typ av frön är 60%. Vi planterar 5 frön under samma förutsättningar och frågar oss: vad är sannolikheten för att två av fröna gror?

10 10 Fler diskreta sannolikhetsfördelningar  Om varje delförsök är Bernoullifördelat och stickprovsstorleken utgör mer än 10 procent av populationsstorleken används den hypergeometriska fördelningen  Om X är binomialfördelad och n är stort (större än 20) och π litet (mindre än 0.05) kan annars tunga beräkningar förenklas genom Poissonfördelningen  Vi betraktar en slumpvariabel X, för vilken experimentet i varje delförsök antingen kan lyckas eller misslyckas, och fortsätter med delförsöken tills vi första gången lyckas. Vad är sannolikheten för att detta sker vid delförsök k ? Detta kan besvaras genom den geometriska fördelningen

11 11 Kontinuerlig sannolikhetsfördelning Kontinuerliga sannolikhetsfördelningar är fördelningar för variabler som kan mätas med många decimalers noggrannhet. Vi känner till att fördelningen för en kontinuerlig kvantitativ variabel beskrivs med histogram. Histogrammen baseras dock i allmänhet på stickprov, men genom att utgå från histogrammets utseende kan man ”sammanfatta” variabelns utseende med en matematisk funktion, i syfte att generalisera resultaten till populationen och göra sannolikhetsberäkningar om denna. Det man gör kan liknas vid att lägga en mjuk kurva över histogrammet. 11 Kurvan kallas för en täthetsfunktion. Vi kan uppfatta täthetsfunktionen som ett histogram, där varje stapel är oändligt tunn och där staplarna ligger oändligt tätt intill varandra. Täthetsfunktionen konstrueras så att arean under kurvan blir 1: detta gör det möjligt att använda den för sannolikhetsberäkningar.

12 12 Normalfördelningen 12 En mycket viktig kontinuerlig fördelning, därför att den väldigt ofta återkommer i statistiska beräkningar och spelar en mycket stor roll inom statistiken. Att en variabel X är normalfördelad tecknas Normalfördelningen är symmetrisk kring sitt väntevärde Normalfördelningen definieras av två parametrar: - Väntevärdet µ, kring vilken fördelningen är symmetrisk. Väntevärdet kan vara positivt, negativt eller noll. - Standardavvikelsen σ. Ju lägre standardavvikelse, desto spetsigare kurva. Standardavvikelsen är alltid positiv. Oavsett värden på µ och σ så är arean under kurvan alltid 1. Det råder också praktiska relationer mellan väntevärdet och standardavvikelsen: exempelvis gäller att ungefär 68% av fördelningen ligger mellan gränserna µ - σ och µ + σ, och ungefär 95% av fördelningen mellan µ - 2σ och µ + 2σ.

13 13 Att söka en sannolikhet för givet X Normalfördelning X = avståndet (i mm) från bollträff till centrum på puttern Exempel: Tillverkarens uppgifter säger att träffar inom 10 mm från centrum ska leda till en bra putt. Hur stor andel av mina puttar kan förväntas bli bra?

14 14 En standardiserad normalfördelning är en normalfördelning med väntevärde 0 och standardavvikelse 1: Standardiseringsformel: där µ och σ är den normalfördelade variabeln X parametrar och x är det värde vi är intresserade av. Standardiserad normalfördelning

15 Normalfördelningsapproximation av binomialfördelning Låt X vara en binomialfördelad slumpvariabel enligt X ~ bin(n; π) Givet att nπ(1 – π) > 5 kan X approximeras enligt Approximationens syfte: underlätta beräkningar som annars skulle vara mycket tunga. 15 Exempel: Vi definierar händelsen A = sexa vid tärningskast och kastar tärning 100 gånger. Vad är sannolikheten för att vi ska få sexa fler än 20 gånger?

16 Kapitel 5 Stickprovsteori Sid 125-150

17 17 Statistisk inferens  Population (även målpopulation): den (på logisk väg definierade) grupp av enheter (ofta individer) som vi vill undersöka  Urvalsram (även rampopulation): förteckning över enheterna i populationen, ofta ett register  Urvalsenheter: de enheter som blivit utvalda i stickprovet Konsten att dra slutsatser om en population baserat på ett stickprov (statistisk inferens eller statistisk slutledning) är en av grundpelarna inom statistiken! Det är också vad merparten av denna kurs kommer att handla om.

18 18 Obundet slumpmässigt urval (OSU) (engelska Simple Random Sample) Stickprovsdragning på ett sådant sätt att alla enheter i populationen har samma sannolikhet att bli utvalda. Exempel: Vår population är alla studenter i ett klassrum, och vi vill undersöka genomsnittsvikten i klassen. Att väga alla skulle ta lång tid, och man vill därför dra ett stickprov om 20 personer. Det enklaste sättet att göra ett OSU skulle då vara att skriva ned allas namn på lappar, lägga dem i en låda och dra 20 lappar ur lådan. Då har slumpen valt ut 20 personer åt oss och alla har lika stor chans att bli utvalda.

19 19 På stan-urval En praktisk tillämpning av OSU.  Principen för ett på stan-urval är att aktivt söka upp respondenterna, exempelvis genom att stå på en välfylld gata och tillfråga människor som passerar förbi. Det gäller dock att ta slumpen till hjälp för att få ett slumpmässigt urval!  Detta kan vi göra genom att exempelvis tillfråga var tionde person som passerar oss. Syftet med det är förstås att göra ett urval bland alla individer som passerar förbi, inte bara de som ser vänliga ut och som verkar ha tid. 19

20 20 Stratifierat urval (engelska Stratified Random Sample) När vi vill dra slutsatser om en heterogen population (en population som kan delas in i undergrupper med avseende på någon egenskap som vi tror påverkar det som vi vill undersöka). Varje sådan grupp kallas för ett stratum, och vi drar ett OSU ur varje stratum och väger ihop resultaten. Stratifierat urval ger, om populationen är heterogen, normalt lägre standardavvikelse än ett OSU och därmed säkrare slutsatser om populationen. Exempel (forts): Vi delar upp populationen i kvinnor och män, och lägger sedan lapparna med namn i en låda för kvinnor och en för män. Sedan drar vi 10 lappar ur varje låda.

21 21 Relation mellan population och stickprov  Populationsparametrar: beskrivande mått för populationen. Okända, och de som vi önskar dra slutsatser om  Stickprovsstatistikor: skattningar av populationsparametrarna baserat på stickprov Tabellen visar väntevärdesriktiga (engelska unbiased) skattningar av populationsparametrarna. 21 PopulationsparameterStickprovsstatistika Medelvärde Varians Andel

22 22 Väntevärdesriktighet Vi studerar nu relationen mellan stickprovsstatistikor och populationsparametrar genom att fokusera på relationen mellan stickprovsmedelvärde och populationsmedelvärde. Låt X vara en slumpvariabel med vilken fördelning som helst. Innan stickprovet har dragits är den första observationen vi ska göra, X 1, också en slumpvariabel, med väntevärde och varians Samma sak gäller för X 2, X 3, …, X n : de har vart och ett väntevärde och varians Vi antar nu att vi för variabeln X har observerat värdena X 1, X 2, …, X n. 22

23 23 Vi utnyttjar räknereglerna för linjära variabeltransformationer: Vi ser att väntevärdet för stickprovsmedelvärdet är populationsmedelvärdet! Vi har därigenom visat att stickprovsmedelvärdet är en väntevärdesriktig skattning av populationsmedelvärdet. Innebörden i väntevärdesriktighet är alltså att inga systematiska fel görs när stickprovsstatistikan används för att uppskatta populationsparametern. På motsvarande sätt kan det visas att Dock är inte stickprovsstandardavvikelsen en väntevärdesriktig skattning av populationsstandardavvikelsen! Felet, som är en systematisk underskattning, är dock litet och stickprovsstandardavvikelsen används därför ändå som en skattning av populationsstandardavvikelsen. Väntevärdesriktighet (forts) 23

24 24 Vilket fel gör vi i genomsnitt när vi använder en stickprovsstatistika som en uppskattning av populationsparametern? Återigen enligt reglerna för linjära variabeltransformationer: Härledningen visar att när stickprovsstorleken ökar så minskar stickprovsmedelvärdets varians – fördelningen för stickprovsmedelvärdet blir mer och mer koncentrerad kring . Medelfel för stickprovsmedelvärdet: Medelfelet är en uppskattning av den genomsnittliga osäkerheten när vi använder en stickprovsstatistika för att uppskatta populationsparametern. Medelfel 24

25 25 De stora talens lag 25 Ju större stickprov vi drar, desto mer lika blir stickprovsstatistikorna populationsparametrarna

26 26 Samplingfördelning Hur ofta kommer stickprovsmedelvärdet att överensstämma med populationsmedelvärdet, om vi skulle dra många OSU ur samma population? 26 Exempel: Vi studerar en population bestående av 100 enheter. 1111222222 3333333344 5555555566 6666666678 89999910 11 1213 14 1516 1718 19 202223 24 2728 29 30 32 34363740 4445505457 59 68818387919497100 M = 11.5

27 27 Samplingfördelning (forts) 27 133551314224081 23331619223050100

28 28 Samplingfördelning (forts) Låt oss nu göra ett teoretiskt experiment: vi drar 100 oberoende stickprov om storleken n = 10, beräknar de 100 stickprovsmedelvärdena och åskådliggör stickprovsmedelvärdena i ett histogram. Följande resultat erhålles. 28

29 29 Samplingfördelning (forts) Experimentet upprepas för 100 oberoende stickprov om storleken n = 20: 29

30 30 Samplingfördelning (forts) Slutligen upprepas experimentet för 100 oberoende stickprov om storleken n = 30: 30

31 31 Samplingfördelning (forts)  Fördelningen för stickprovsmedelvärdena kallas för en urvalsfördelning.  Urvalsfördelningen är alltså en förteckning över vilka värden vi kan förvänta oss få i vårt urval, och hur ofta de kan förväntas förekomma.  Vi kan betrakta urvalsfördelningen som en uppskattning av den fördelning som skulle fås om vi åskådliggjorde stickprovsmedelvärdena för samtliga möjliga stickprov av en viss storlek ur populationen, vilket kallas för en samplingfördelning. 31

32 32 Centrala gränsvärdessatsen  samplingfördelningen blir mer och mer lik en normalfördelning (trots att populationen som stickproven drogs ur inte alls var normalfördelad!) när stickprovsstorleken ökar  samplingfördelningens medelvärde hamnar allt närmare populationsmedelvärdet när stickprovsstorleken ökar Centrala gränsvärdessatsen säger Vanlig tumregel: n ≥ 30 32 Samplingfördelningen för summor eller medelvärden av n oberoende slumpvariabler med samma fördelning är approximativt normalfördelad om n är tillräckligt stort

33 33 Fördelning för linjära variabeltransformationer Innebörden i detta är att samplingfördelningen för medelvärden, summor och andelar beräknade på observationer som följer normalfördelningen, genom att de dragits ur en population som är normalfördelad, också är normalfördelade, och detta oavsett stickprovets storlek. 33 Linjära variabeltransformationer av normalfördelade slumpvariabler är också normalfördelade

34 34 Stickprovsmedelvärdets fördelning Om n ≥ 30 gäller, tack vare centrala gränsvärdessatsen oavsett vilken fördelning populationen som stickprovet dragits ur har, att Om n < 30 krävs att populationen som stickprovet dragits ur är normalfördelad. Då gäller fortfarande ovanstående formel eftersom linjära variabeltransformationer av normalfördelade slumpvariabler också är normalfördelade. 34

35 35 Exempel Vikten hos jordgubbar har väntevärde 50 gram och standardavvikelse 15 gram. En låda innehåller 35 jordgubbar. Vad är sannolikheten för att den sammanlagda vikten av de 35 jordgubbarna och lådan överstiger 2000 gram om lådan själv väger 200 gram? 35

36 36 Projektarbetet Denna vecka läggs fokus på enkätkonstruktion. Detta är den i särklass viktigaste delen av projektet och den som störst fokus kommer att läggas på i bedömningen.  Formulera cirka 15 frågor som ringar in ert valda ämnesområde, inklusive några relevanta bakgrundsfrågor (kön, ålder och liknande som kan vara intressanta för att bilda korstabeller).  Skapa enkät.  Testa enkäten (genomför pilotundersökning) och korrigera den.

37 37 Om enkäter och enkätkonstruktion  En enkätundersökning genomförs genom att till slumpmässigt utvalda individer sprida ett frågeformulär med i förväg konstruerade svarsalternativ för att sedan med statistiska metoder bearbeta denna information och dra slutsatser om populationen som stickprovet dragits ur.  Data från en enkätundersökning är exempel på primärdata, till skillnad från information från exempelvis register vilket kallas sekundärdata.  Viktiga begrepp är, precis som vanligt inom statistiken, population och stickprov: vi definierar en population som vi önskar dra slutsatser om och drar sedan ett stickprov (om inte populationen är så liten och välavgränsad att alla individer i populationen kan undersökas) med hjälp av någon av de metoder vi lärt oss i kapitel 5.  Resultaten från stickprovet används för att dra slutsatser om populationen.  Även begreppet variabel spelar en stor roll: när vi genomför en enkätundersökning betraktas varje fråga som en variabel. 37

38 38 Förberedelser  Första steget i arbetet med en enkätundersökning är att formulera undersökningens syfte och översätta detta syfte i en problemformulering. Problemformuleringen kan med fördel uttryckas i form av en punktlista med konkreta men övergripande frågor. Problemformuleringen har en nyckelroll vid konstruktion av enkäter.  Nästa steg är att definiera en målpopulation, den grupp av individer som vi vill dra slutsatser om och omsätta målpopulationen i en rampopulation, som utgörs av de individer som vi faktiskt vet (åtminstone i teorin) att vi kan få tag i.  Vi väljer sedan en lämplig urvalsdesign (för mindre undersökningar oftast OSU) för att ur rampopulationen kunna göra ett stickprov som är så representativt för målpopulationen som möjligt. 38

39 39 Enkätkonstruktion 1.Inled enkäten med bakgrundsfrågor (ålder, kön och liknande). 2.Eftersträva enkelhet i frågorna: korta, koncisa frågor som är neutralt formulerade. 3.Håll nere antalet frågor. För denna undersökning – omkring 10-12 frågor. 4.Se till att det finns svarsalternativ för samtliga tänkbara åsikter på varje fråga. 5.Undvik att låta respondenten ”hoppa” för mycket i enkäten (av typen Du som svarat ”Nej” på fråga 12, gå direkt till fråga 15). Konstruera istället enkäten så att man successivt betar av respondenterna efter hur de indelas av enkätfrågorna. 6.Undvik att be respondenten att rangordna svarsalternativ (frågor av typen Sätt en etta på det tvättmedel du helst köper, en tvåa på det som du näst helst köper och så vidare). 7.Avsluta gärna enkäten med en öppen fråga. 39

40 40 Följeinformation Informera i introduktionsbrev eller i enkätens ingress alltid om  Vad undersökningen handlar om.  Vem som har skickat enkäten (och på vems uppdrag).  När enkäten senast ska besvaras.  Varför det finns identifikationsnummer, om sådant finns. Identifikationsnummer används ofta vid postenkäter, för att man ska veta vilka som har besvarat enkäten och vilka som behöver få en påminnelse.  Var, när och hur man kan ta del av resultaten av undersökningen.  Vem man ska vända sig till (namn och telefonnummer) om man har frågor eller problem att fylla i enkäten. (Ej nödvändigt om undersökningen genomförs genom på stan-urval). Tänk i detta sammanhang på att aldrig utlova anonymitet i studien – för det kan aldrig garanteras. Däremot kan och bör man se till att de ifyllda enkäterna hanteras konfidentiellt och detta bör också framgå i introduktionsbrevet eller ingressen. 40


Ladda ner ppt "Föreläsning 4 732G81. Kapitel 4 Sannolikhetsfördelningar Sid 79-124."

Liknande presentationer


Google-annonser