Inferens om en population Sid 151-185 Kapitel 6 Inferens om en population Sid 151-185
Inferens om en population Dra slutsats från ett stickprov till en population Vi vet resultatet i stickprovet (exempelvis vad medelvärdet i stickprovet är). Vad kan vi säga om (exempelvis medelvärdet) i populationen? Två sätt att dra inferens från stickprov till population Konfidensintervall Hypotesprövning
Konfidensintervall Konfidensintervall Ett intervall runt en punktskattning Vi kan med en viss säkerhet säga att den okända parametern täcks av intervallet Konfidensgraden, 1 – a, bestäms ofta till 0.9, 0.95 eller 0.99
Konfidensintervall för populationsmedelvärde Krav OSU Samplingfördelningen för stickprovsmedelvärdet går att betrakta som normalfördelad Om är känd fås ett dubbelsidigt konfidensintervall med konfidensgrad 1 - a: där z-värde hämtas från normalfördelningstabell (bilaga B) Om är okänd fås ett dubbelsidigt konfidensintervall med konfidensgrad 1 - a: där t-värde hämtas från t-fördelningstabell (bilaga B) Tolkning: Med (1 – a)% säkerhet är populationsmedelvärdet mellan ….. och ….. Det som står efter +- kallas felmarginalen!
Enkelsidigt konfidensintervall Om vi bara vill bestämma EN gräns (övre eller nedre) så lägger vi all a i ena svansen av fördelningen Nedre gräns: Övre gräns: Tolkning: Med (1 – a)% säkerhet är det sanna medelvärdet högre än/lägre än …..
Exempel Ett gym erbjuder ett viktminskningsprogram. Ett OSU på 10 kunder visar följande viktminskning (i kg) efter genomgånget program: 6 3 5 8 0 2 1 7 3 2 Beräkna ett 95%-igt konfidensintervall för populationsmedelvärdet. Vilka antaganden måste göras vid beräkning av intervallet? Programansvarig påstår att folk minskar i vikt med minst 2 kg om man följer programmet. Kan vi med 95% säkerhet säga att den genomsnittliga minskningen är minst 2 kg?
Konfidensintervall för populationsandel Krav OSU np(1-p) > 5 Dubbelsidigt och enkelsidiga konfidensintervall med konfidensgrad 1 - a:
Exempel Enligt SIFOs senaste mätning svarade 976 av 1934 personer att de skulle rösta på någon av de rödgröna partierna (S, Mp, V) i riksdagsvalet om det var val i dag. Beräkna ett konfidensintervall (dubbelsidigt eller enkelsidigt?) så att du kan besvara frågan om minst en majoritet av svenska folket skulle rösta på någon av de rödgröna partierna om det var val i dag. Vilka antaganden behöver du göra för att beräkna intervallet?
Hypotesprövning Vi ställer upp två hypoteser Vi väljer signifikansnivå Nollhypotes: H0 Den hypotes vi inte tror på och vill kunna förkasta Nollhypotesen ska formuleras med ett likhetstecken Vi kan inte få statistiskt bevis/stöd för nollhypotesen Mothypotes: Ha Den hypotes vi vill ha statistiskt bevis/stöd för Om vi har tillräckligt med statistiskt bevis för att förkasta nollhypotesen kan vi tro på mothypotesen Mothypotesen ska formuleras med ett ”ej lika med” eller ”större än” eller ”mindre än” Hypoteserna grundar sig i hur frågeställningen ser ut och baseras ofta på tidigare resultat och (exempelvis ekonomisk) teori. Man formulerar INTE hypoteser baserat på hur resultaten från stickprovet ser ut! Vi väljer signifikansnivå α Risken att förkasta en sann nollhypotes Vanliga signifikansnivåer är 0.05, 0.01, 0.10
Hypotesprövning forts Vi väljer testvariabel Testvariabeln beräknas ofta som punktskattningen minus värdet under nollhypotesen, dividerat med medelfelet för skattningen Vi väljer om vi ska förkasta nollhypotesen och tro på mothypotesen Vi jämför testvariabelns värde med ett kritiskt värde från en tabell. Om testvariabeln faller inom det kritiska området kan nollhypotesen förkastas och vi har stöd för mothypotesen Vi drar slutsats Om nollhypotesen förkastas kan vi säga att vi har statistiskt stöd för mothypotesen och kan tro på den Ofta säger vi att vi har ”signifikans” eller att något är ”statistiskt säkerställt” Om nollhypotesen inte kan förkastas säger vi att vi INTE har statistiskt stöd för mothypotesen Vi drar slutsatsen på signifikansnivå α
Hypotesprövning för populationsmedelvärde Krav OSU Samplingfördelningen för stickprovsmedelvärdet går att betrakta som normalfördelad Nollhypotes H0: µ = µ0 Testvariabler Om är känd Om är okänd Kritiska värden För Ha: µ ≠ µ0 är kritiskt område både till vänster om zα/2 resp. tn-1;α/2 och till höger om z1-α/2 resp. tn-1;1-α/2 För Ha: µ < µ0 är kritiskt område till vänster om zα resp. tn-1;α För Ha: µ > µ0 är kritiskt område till höger om z1-α resp. tn-1;1-α
Exempel (forts.) Ett gym erbjuder ett viktminskningsprogram. Ett OSU på 10 kunder visar följande viktminskning (i kg) efter genomgånget program: 6 3 5 8 0 2 1 7 3 2 Hypotestesta på 5% signifikansnivå om den genomsnittliga viktminskningen i populationen är större än 2 kg. Vilka antaganden måste göras?
Hypotesprövning för populationsandel Krav OSU np(1-p) > 5 Nollhypotes H0: π = π0 Testvariabel Kritiska värden För Ha: π ≠ π0 är kritiskt område både till vänster om zα/2 och till höger om z1-α/2 För Ha: π < π0 är kritiskt område till vänster om zα För Ha: π > π0 är kritiskt område till höger om z1-α
Exempel Enligt Statistiska Centralbyråns senaste skattning var 8.5% arbetslösa i Sverige. Skattningen beräknades på ett slumpmässigt urval av 29500 personer. Hypotestesta på 1% signifikansnivå om arbetslösheten i Sverige är lägre än 9%. Vilka antaganden behöver du göra?
Hypotesprövning med p-värde p-värde = sannolikheten att vår testvariabel ska anta det värde som vi har observerat eller ännu mer extremt om nollhypotesen är sann Med hjälp av normalfödelningstabellen kan vi ta reda på denna sannolikhet Om p-värdet är litet (mindre än a) är det osannolikt att vi skulle fått det resultat vi fick på testvariabeln om nollhypotesen är sann. Vi förkastar nollhypotesen.
Exempel En viss amerikansk bank tror att det genomsnittliga uttaget från bankomater är $150 och standardavvikelsen är $50. Finns det statistisk stöd för att banken har fel, om ett OSU av 36 uttag ger ett medelvärde på $160? Genomför ett hypotestest med hjälp av p-värdesmetoden på 5% signifikansnivå. Vilka antaganden behöver du göra? Vad skulle p-värdet bli om vi i stället gjorde ett enkelsidigt test, och vi ville testa om det finns statistiskt stöd för att genomsnittet är högre än $150? Vad skulle p-värdet bli om vi i stället gjorde ett enkelsidigt test, och vi ville testa om det finns statistiskt stöd för att genomsnittet är lägre än $150?
Relation mellan konfidensintervall och hypotesprövning Om värdet i nollhypotesen ingår i ett konfidensintervall med konfidensgrad 1-a kan vi inte förkasta nollhypotesen på signifikansnivå a Om värdet i nollhypotesen inte ingår i ett konfidensintervall med konfidensgrad 1-a kan vi förkasta nollhypotesen på signifikansnivå a Vid dubbelsidiga mothypoteser krävs dubbelsidiga intervall och vid enkelsidiga mothypoteser krävs enkelsidiga intervall
Exempel (forts) Enligt SIFOs senaste mätning svarade 976 av 1934 personer att de skulle rösta på någon av de rödgröna partierna (S, Mp, V) i riksdagsvalet om det var val i dag. Beräkna ett konfidensintervall så att du kan hypotestesta på 10% signifikansnivå om minst en majoritet av svenska folket skulle rösta på någon av de rödgröna partierna om det var val i dag.
Feltyper och styrka Feltyper Styrka Typ I-fel: Att förkasta en sann nollhypotes Sannolikhet för Typ I-fel: a Typ II-fel: Att inte förkasta en falsk nollhypotes Sannolikhet för Typ II-fel: b Styrka Sannolikheten att förkasta en falsk nollhypotes