Föreläsning 6 732G81
Kapitel 6 Inferens om en population Sid
Punktskattning: att använda en stickprovsstatistika som en uppskattning av motsvarande populationsparameter Dock: stickprovsstatistikor är slumpvariabler och antar olika värden för varje stickprov. Hur ska vi hantera den osäkerheten? Vi börjar med att göra två antaganden: 1. stickprovet är draget som ett OSU. Detta garanterar oberoende mellan observationerna, vilket är den egenskap vi eftersöker här. 2. samplingfördelningen för stickprovsmedelvärdet kan betraktas som normalfördelad Om stickprovet är stort (enligt tumregeln bestående av minst 30 enheter) kan vi tillämpa centrala gränsvärdessatsen (kapitel 5), vilken säger att samplingfördelningen för summor eller medelvärden av n oberoende slumpvariabler med samma fördelning är approximativt normalfördelad om n är tillräckligt stort. Om stickprovet är litet, enligt tumregel färre än 30 enheter, krävs att populationen som stickprovet dragits ur kan betraktas som normalfördelad. Ett OSU draget ur en normalfördelad population ger, som vi har lärt oss i kapitel 5, att samplingfördelningen för stickprovsmedelvärdet också blir normalfördelad, och detta oavsett stickprovets storlek. 3 Punktskattning och intervallskattning Statistisk inferens om populationsmedelvärde
4 Om kraven är uppfyllda kan vi bilda ett konfidensintervall för populationsmedelvärdet: vi lägger ett osäkerhetsintervall kring punktskattningen vilket tillåter oss att med en viss säkerhet säga att den okända populationsparametern täcks av intervallet. 4 Punktskattning och intervallskattning Statistisk inferens om populationsmedelvärde
5 Konfidensintervall för populationsmedelvärde när σ är okänd 5 Givet att stickprovet är draget som ett OSU samplingfördelningen för stickprovsstatistikan kan betraktas som normalfördelad Dubbelsidigt konfidensintervall: Enkelsidiga konfidensintervall (nedåt respektive uppåt begränsat): Värdet på t hämtas ur t-fördelningen (Appendix B)
t-fördelningen t-fördelningen används för att lösa liknande typer av problem som normalfördelningen, men lämpar sig när stickprovet är relativt litet och populationsstandardavvikelsen är okänd. t-fördelningen är precis som normalfördelningen symmetrisk. t-fördelningen definieras av antalet frihetsgrader, eller enklare uttryckt antalet oberoende bitar av information. Antalet frihetsgrader bestäms av hur mycket data man har och hur många bitar av information som den statistiska metodik man använder sig av kräver. En viktig egenskap hos t-fördelningen är att den närmar sig (konvergerar mot) normalfördelningen när antalet frihetsgrader ökar. En vanlig tumregel är att betrakta t ‑ fördelningen som approximativt normalfördelad om stickprovet består av 30 enheter eller fler.
7 Exempel Ett slumpmässigt urval om 40 studenter vid Linköpings universitet ger medelåldern 21.2 år och standardavvikelsen 4.4 år. Bestäm ett intervall som med 95 procents säkerhet täcker den sanna medelåldern bland studerande vid Linköpings universitet. 7
8 Konfidensintervall för populationsandel Givet att 1.stickprovet är draget som ett OSU 2.det gäller att np(1-p) > 5 bildas dubbelsidigt konfidensintervall för populationsandelen π enligt där värdet på z hämtas ur normalfördelningstabellen (Appendix B) Nedåt begränsat konfidensintervall: Uppåt begränsat konfidensintervall: 8
9 Hypotesprövning för populationsmedelvärde när σ är okänd Förutsätts att 1.stickprovet är draget som ett OSU 2.samplingfördelningen för stickprovsstatistikan kan betraktas som normalfördelad 9 Exempel: I ett OSU omfattande 40 personer bland medlemmarna i ett politiskt parti i en region är medelåldern 42.3 år och standardavvikelsen 7.1 år. Testa på 5 procents signifikansnivå om medelåldern bland medlemmarna i partiet överstiger 45 år.
10 Hypotesprövning om populationsmedelvärde när σ är okänd Steg 1: Formulera hypoteser och välj signifikansnivå H 0 : µ = µ 0 H a : µ > µ 0 H a : µ < µ 0 H a : µ ≠ µ 0 α = signifikansnivå = risken att förkasta H 0 trots att H 0 är sann Vanliga värden på α: 5%, 1% eller 10% (jämför konfidensnivå 95%, 99% eller 90%) 10 Tre sorters mothypoteser. Valet av enkelsidig eller dubbelsidig mothypotes bestäms av frågeställningen Nollhypotes
11 Hypotesprövning om populationsmedelvärde när σ är okänd Steg 2: Bestäm testvariabeln Steg 3: Ska vi tro på H 0 eller H a ? Undersök om testvariabeln faller i acceptansområde (förkasta ej H 0 ) eller i kritiskt område (förkasta H 0 ) Om H a : µ < µ 0 ligger det kritiska området till vänster om det kritiska värdet t n-1;α Om H a : µ > µ 0 ligger det kritiska området till höger om det kritiska värdet t n-1;1-α Om H a : µ ≠ µ 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är t n-1;α/2 respektive t n-1;1-α/2 Steg 4: Dra slutsats 11
12 Hypotesprövning för populationsandel Förutsätter att 1.Stickprovet dragits som ett OSU 2.np(1-p) > 5 Steg 1: Formulera hypoteser och välj signifikansnivå H 0 : π = π 0 H a : π > π 0 H a : π < π 0 H a : π ≠ π 0 Steg 2: Bestäm testvariabeln 12
13 Hypotesprövning för populationsandel Steg 3: Ska vi tro på H 0 eller H a ? Om H a : π < π 0 ligger det kritiska området till vänster om det kritiska värdet z α Om H a : π > π 0 ligger det kritiska området till höger om det kritiska värdet z 1-α Om H a : π ≠ π 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är z α/2 respektive z 1-α/2 Steg 4: Dra slutsats 13
Ska vi tro på H 0 eller H a ? p-värdesmetoden p-värde = sannolikheten för att vår testvariabel ska anta ett värde som det vi observerat eller ännu längre ifrån μ 0 sett i den riktning som mothypotesen pekar. p-värdet kan tolkas som den gräns (mätt som en sannolikhet) mellan var vi kan och inte kan förkasta H 0. Om p-värdet är litet är H 0 osannolik: vi är då mer benägna att tro på H a Beslutsregel: om p-värdet < signifikansnivån förkastas H 0 Vid dubbelsidig mothypotes beräknas p-värdet * 2 14 Exempel: I en hälsoenkät tillfrågades 100 slumpmässigt utvalda anställda vid ett stort företag om huruvida man regelbundet motionerar eller ej. Svar erhölls från 84 anställda och av dessa svarade 65 ja. Undersök om det på 5 procents signifikansnivå finns belägg för påståendet att andelen regelbundna motionärer bland de anställda vid företaget understiger 85 procent genom att beräkna testets p-värde.
15 Feltyper och styrka Typ I-fel: Att förkasta H 0 fast H 0 faktiskt är sann Typ II-fel: Att inte förkasta H 0 fast H a faktiskt är sann Signifikansnivån α: sannolikheten (risken) för typ I-fel Det råder ett motsatsförhållande mellan risken för Typ I-fel och risken för Typ II-fel: minskar vi signifikansnivån (risken för Typ I-fel) ökar risken för Typ II-fel. Inom samhällsvetenskaperna brukar man anse att α = 0.05, 0.01 eller 0.10 ger en bra avvägning mellan typerna av fel. 15 Sanning om populationen Beslut baserat på stickprov H 0 sannH a sann Förkasta H 0 Typ I-felKorrekt beslut Förkasta ej H 0 Korrekt beslutTyp II-fel
Kapitel 7 Jämförelse av två populationer Sid
17 Exempel I ett medicinskt experiment sammankallade man 80 friska medelålders personer, som under tre månader fick pröva ett nytt medicinskt preparat. Syftet med studien var att utreda om preparatet ger förhöjt blodtryck som en biverkning. 40 av personerna fick preparatet, medan 40 fick placebo (ett verkningslöst preparat). Varken patient eller försöksledare visste under studietiden vem som fick vilket preparat (en så kallad dubbelblind studie). Varje person fick varje dag mäta sitt blodtryck, och efter tre månader sammanställdes informationen och räknades om till genomsnittligt blodtryck och standardavvikelse i respektive grupp. Går det, på 95 procents konfidensnivå, att påvisa några skillnader i genomsnittligt blodtryck mellan personer som fick aktivt preparat och de som fick placebo? 17 GruppAntal personer Genomsnittligt blodtryck Standardavvikelse 1 – Aktivt preparat – Placebo
18 Konfidensintervall för jämförelse av populationsmedelvärden 18 Krav: vi har dragit två OSU samplingfördelningarna för de två stickprovsmedelvärdena kan betraktas som normalfördelade Dubbelsidigt konfidensintervall: där värdet på t hämtas ur t-fördelningens kolumn 1 – α/2 och med n* - 1 frihetsgrader, där n* är den minsta av n 1 och n 2 Nedåt begränsat intervall: Uppåt begränsat intervall:
19 Konfidensintervall för jämförelse av andelar i två populationer Krav: vi har dragit två OSU np (1 – p ) > 5 för båda stickproven Dubbelsidigt konfidensintervall: där värdet på z hämtas ur normalfördelningstabellen Nedåt begränsat intervall: Uppåt begränsat intervall: 19
20 Hypotesprövning för jämförelse av populationsmedelvärden Krav: vi har dragit två OSU samplingfördelningarna för de två stickprovsmedelvärdena kan betraktas som normalfördelade Steg 1: Välj signifikansnivå och formulera hypoteser H 0 : µ 1 - µ 2 = d 0 där d 0 är den differens vi testar för (ofta sätts d 0 = 0) H a : µ 1 - µ 2 < d 0 H a : µ 1 - µ 2 > d 0 H a : µ 1 - µ 2 ≠ d 0 Ofta formuleras nollhypotesen så att den tillsammans med mothypotesen täcker in hela utfallsrummet. 20 Valet av mothypotes bestäms av problemställningen
21 Hypotesprövning för jämförelse av populationsmedelvärden Steg 2: Bestäm testvariabeln Steg 3: Ska vi tro på H 0 eller H a ? Om H a : µ 1 - µ 2 < d 0 ligger det kritiska området till vänster om det kritiska värdet t n*-1; α Om H a : µ 1 - µ 2 > d 0 ligger det kritiska området till höger om det kritiska värdet t n*-1; 1-α Om H a : µ 1 - µ 2 ≠ d 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är t n*-1; α/2 respektive t n*-1; 1-α/2 Om testvariabeln faller i kritiskt område förkastas nollhypotesen. Steg 4: Dra slutsats 21 Kom ihåg: n* är den minsta av n 1 och n 2
22 Hypotesprövning för jämförelse av populationsandelar Krav: vi har dragit två OSU np (1 – p ) > 5 för båda stickproven Steg 1: Välj signifikansnivå och formulera hypoteser H 0 : π 1 - π 2 = d 0 där d 0 är den differens vi testar för (ofta sätts d 0 = 0) H a : π 1 - π 2 < d 0 H a : π 1 - π 2 > d 0 H a : π 1 - π 2 ≠ d 0 Ofta formuleras nollhypotesen så att den tillsammans med mothypotesen täcker in hela utfallsrummet. 22
23 Hypotesprövning för jämförelse av populationsandelar Steg 2: Bestäm testvariabeln där kallas för en sammanvägd (eller poolad) andel 23
24 Hypotesprövning för jämförelse av populationsandelar Steg 3: Ska vi tro på H 0 eller H a ? Testvariabeln jämförs med kritiskt värde enligt Om H a : π 1 - π 2 < d 0 ligger det kritiska området till vänster om det kritiska värdet z α Om H a : π 1 - π 2 > d 0 ligger det kritiska området till höger om det kritiska värdet z 1-α Om H a : π 1 - π 2 ≠ d 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är z α/2 respektive z 1-α/2 Om testvariabeln faller i kritiskt område förkastas H 0 Alternativt: beräkna p-värdet Steg 4: Dra slutsats 24
25 Exempel 25 Sämre prognos för män med bröstcancer Bland män som insjuknar i bröstcancer är överlevnaden betydligt lägre än för kvinnor, enligt en studie vid Akademiska sjukhuset i Uppsala. 99 män med bröstcancer följdes under 15 år och jämfördes med 369 kvinnliga bröstcancerpatienter. Fem år efter diagnosen levde 55 procent av kvinnorna men bara 41 procent av männen. Östgöta Correspondenten, torsdag 27 oktober 2011 På vilken signifikansnivå har forskarna kunnat dra denna slutsats?
Parvisa observationer När samma enhet undersöks vid två olika tillfällen, till exempel före och efter en behandling, uppfylls inte kravet på oberoende mellan stickproven (vilket annars garanteras av att man dragit två OSU). 26 Deltagare Traditionellt Nytt Exempel: Vattenplaning är en stor trafikfara, och av stor betydelse är bildäckens förmåga att pressa undan vatten. För att undersöka vid vilken hastighet vattenplaning uppnås vid ett kontrollerat experiment på en vattenfylld bana provades två däcktyper: en med traditionellt däcksmönster och en med ett nyutvecklat mönster skapat just för att tränga undan vatten. Varje däcktyp provades på 10 typer av bilar eftersom bilens tyngd och aerodynamiska egenskaper också kan påverka vid vilken hastighet vattenplaning uppnås. Följande resultat erhölls. Är det nya mönstret bättre, sett till vid vilken hastighet vattenplaning uppnås (det är givetvis önskvärt att man ska kunna köra så fort som möjligt utan att få vattenplaning), jämfört med det traditionella mönstret? Utred frågeställningen på 5% signifikansnivå. Vilka antaganden måste göras för att metodiken ska vara tillämpbar?
27 Projektarbetet - kodning 27 Exempel 1: Fråga med endast två svarsalternativ. Äger du något motorfordon? ( 1 ) Ja( 0 ) Nej Exempel 2: Fråga med många svarsalternativ, men det är endast tillåtet att fylla i ett enda svarsalternativ på frågan. Hur reser du oftast till Göteborg idag? ( 1 ) Med buss och byten mellan olika bussar ( 2 ) Med tåg och byten mellan olika tåg ( 3 ) Med buss och tåg och lämpliga byten ( 4 ) Med bil (egen bil eller samåkning med andra) ( 5 ) Med flyg ( 6 ) På annat sätt än ovanstående
28 Projektarbetet - kodning 28 Exempel 3: Fråga med många svarsalternativ, där det är tillåtet att fylla i flera alternativ. Hur reser du till Göteborg idag? (Flera svarsalternativ får ges) ( ) Med buss ( ) Med tåg ( ) Med bil (egen bil eller samåkning) ( ) Med flyg ( ) På annat sätt än ovanstående Här är det lämpligt att låta varje svarsalternativ utgöra en egen kolumn i Excel när vi kodar, och om respondenten valt ett specifikt alternativ får det koden 1, annars koden 0
29 Projektarbetet - kodning 29 Exempel 4: Attitydfrågor med svarsskalor av typen Mycket positiv ( 5 ) ( 4 ) ( 3 ) ( 2 ) ( 1 ) Mycket negativ Exempel 5: Frekvensfrågor Jag reser till Göteborg ( 1 ) mindre än en gång per år ( 2 ) 1-6 gånger per år ( 3 ) nästan varje månad ( 4 ) 1-3 gånger per månad ( 5 ) 1-3 gånger per vecka ( 6 ) varje dag eller nästan varje dag Exempel 6: Hur gammal är du? ______________ (skriv in resultatet, bilda grupper i efterhand)
30 Projektarbetet - kodning 30 Kodning av saknade svar: Om ”illegalt” bortfall lämna cellen tom eller markera med en * Om ”legalt” bortfall ge någon speciell kod för detta (exempelvis -99) Exempel: Fråga 4: Reser du med buss när du reser till Göteborg? ( ) Ja( ) Nej Fråga 5: Om du svarat Nej på föregående fråga, fortsätt till fråga 6 Vilket bussbolag reser du oftast med vid starten från Linköping? ( ) SweBuss( ) Bus4U( ) Annat, nämligen ____________ Om respondenten svarat Nej på fråga 4 ska inget svar ges på fråga 5. Bortfallet är legalt och kodas med 99