Föreläsning 6 732G81. Kapitel 6 Inferens om en population Sid 151-185.

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

732G22 Grunder i statistisk metodik
Jämförelse av två populationer Sid
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Genomgång - biostatistik Fråga 1 I en liten undersökning efterfrågades uppgifter om ålder hos 20 personer med högt blodtryck se tabell a)Beräkna.
Föreläsning 8 732G81. Kapitel 8 Inferens om en ändlig population Sid
Jämställdhetsenkät – sammanställning Under 2014 spred vi en enkät till alla som definierar sig som kvinnor och som bor på landsbygden.
Introduktion. Exempel: Till ett försök med bantningsmedlet Bantomid anmälde sig 14 personer frivilligt, alla med övervikt. De delades slumpmässigt in.
© Landja Marknadsanalys AB Säkerhet och olycksrisker Sveriges Lantbruk våren Sveriges Lantbruk våren 2009 En undersökning bland lantbrukare Jörgen.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
Repetition av Chi2-test Kap 6, Kodning av svaren Kap 10, Olika feltyper Kap 12, Rapportskrivning.
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Insikt 2015 Söderköpings kommun
INFÖR NATIONELLA PROVET
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Så tycker de äldre om äldreomsorgen 2017
Kvalitetsmätningen hösten 2017
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Kompetensförsörjningsgruppen presenterar
Regiongemensam enkät i förskola och familjedaghem 2016
Elev- och Föräldraenkät
Regiongemensam enkät i förskola och familjedaghem 2016
Besöksnäringens Konjunkturbarometer
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Vad ingår kursen? i korta drag
Ung Cancer - Medlemsundersökning 2017, Närstående
Information från Försäkringskassan till Steg-ett ut utbildningen april Välkomna.
Så tycker de äldre om äldreomsorgen 2017
Kvalitetsmätningar under perioden vt 2014 – ht 2017
En lönejämförelse mellan män och kvinnor
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
JÄMIX® 2011 för Göteborgs stad Bolag och förvaltningar nr 1
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Regiongemensam elevenkät 2018
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2017
Så tycker de äldre om äldreomsorgen 2018
Så tycker de äldre om äldreomsorgen 2018
Statistikuppgift åk8 Upptäck datorns förträfflighet i att rita diagram och beräkna statistik.
Så tycker de äldre om äldreomsorgen 2017
Bostadstillägg Pensionsmyndigheten har av regeringen fått uppdraget att öka kunskapen om bostadstillägg och verka för att mörkertalet inom bostadstillägg.
Så tycker de äldre om äldreomsorgen 2018
Arbetsmiljön FB-kvalitet hösten 2018 Tage Johansson
Så tycker de äldre om äldreomsorgen 2018
Så tycker de äldre om äldreomsorgen 2018
Så tycker de äldre om äldreomsorgen 2017
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Saker att ta upp… Skärpning av reglerna omkring MKN vatten
Presentationens avskrift:

Föreläsning 6 732G81

Kapitel 6 Inferens om en population Sid

 Punktskattning: att använda en stickprovsstatistika som en uppskattning av motsvarande populationsparameter Dock: stickprovsstatistikor är slumpvariabler och antar olika värden för varje stickprov. Hur ska vi hantera den osäkerheten?  Vi börjar med att göra två antaganden: 1. stickprovet är draget som ett OSU. Detta garanterar oberoende mellan observationerna, vilket är den egenskap vi eftersöker här. 2. samplingfördelningen för stickprovsmedelvärdet kan betraktas som normalfördelad  Om stickprovet är stort (enligt tumregeln bestående av minst 30 enheter) kan vi tillämpa centrala gränsvärdessatsen (kapitel 5), vilken säger att samplingfördelningen för summor eller medelvärden av n oberoende slumpvariabler med samma fördelning är approximativt normalfördelad om n är tillräckligt stort.  Om stickprovet är litet, enligt tumregel färre än 30 enheter, krävs att populationen som stickprovet dragits ur kan betraktas som normalfördelad. Ett OSU draget ur en normalfördelad population ger, som vi har lärt oss i kapitel 5, att samplingfördelningen för stickprovsmedelvärdet också blir normalfördelad, och detta oavsett stickprovets storlek. 3 Punktskattning och intervallskattning Statistisk inferens om populationsmedelvärde

4  Om kraven är uppfyllda kan vi bilda ett konfidensintervall för populationsmedelvärdet: vi lägger ett osäkerhetsintervall kring punktskattningen vilket tillåter oss att med en viss säkerhet säga att den okända populationsparametern täcks av intervallet. 4 Punktskattning och intervallskattning Statistisk inferens om populationsmedelvärde

5 Konfidensintervall för populationsmedelvärde när σ är okänd 5 Givet att  stickprovet är draget som ett OSU  samplingfördelningen för stickprovsstatistikan kan betraktas som normalfördelad Dubbelsidigt konfidensintervall: Enkelsidiga konfidensintervall (nedåt respektive uppåt begränsat): Värdet på t hämtas ur t-fördelningen (Appendix B)

t-fördelningen t-fördelningen används för att lösa liknande typer av problem som normalfördelningen, men lämpar sig när stickprovet är relativt litet och populationsstandardavvikelsen är okänd. t-fördelningen är precis som normalfördelningen symmetrisk. t-fördelningen definieras av antalet frihetsgrader, eller enklare uttryckt antalet oberoende bitar av information. Antalet frihetsgrader bestäms av hur mycket data man har och hur många bitar av information som den statistiska metodik man använder sig av kräver. En viktig egenskap hos t-fördelningen är att den närmar sig (konvergerar mot) normalfördelningen när antalet frihetsgrader ökar. En vanlig tumregel är att betrakta t ‑ fördelningen som approximativt normalfördelad om stickprovet består av 30 enheter eller fler.

7 Exempel Ett slumpmässigt urval om 40 studenter vid Linköpings universitet ger medelåldern 21.2 år och standardavvikelsen 4.4 år. Bestäm ett intervall som med 95 procents säkerhet täcker den sanna medelåldern bland studerande vid Linköpings universitet. 7

8 Konfidensintervall för populationsandel Givet att 1.stickprovet är draget som ett OSU 2.det gäller att np(1-p) > 5 bildas dubbelsidigt konfidensintervall för populationsandelen π enligt där värdet på z hämtas ur normalfördelningstabellen (Appendix B)  Nedåt begränsat konfidensintervall:  Uppåt begränsat konfidensintervall: 8

9 Hypotesprövning för populationsmedelvärde när σ är okänd Förutsätts att 1.stickprovet är draget som ett OSU 2.samplingfördelningen för stickprovsstatistikan kan betraktas som normalfördelad 9 Exempel: I ett OSU omfattande 40 personer bland medlemmarna i ett politiskt parti i en region är medelåldern 42.3 år och standardavvikelsen 7.1 år. Testa på 5 procents signifikansnivå om medelåldern bland medlemmarna i partiet överstiger 45 år.

10 Hypotesprövning om populationsmedelvärde när σ är okänd  Steg 1: Formulera hypoteser och välj signifikansnivå H 0 : µ = µ 0 H a : µ > µ 0 H a : µ < µ 0 H a : µ ≠ µ 0  α = signifikansnivå = risken att förkasta H 0 trots att H 0 är sann  Vanliga värden på α: 5%, 1% eller 10% (jämför konfidensnivå 95%, 99% eller 90%) 10 Tre sorters mothypoteser. Valet av enkelsidig eller dubbelsidig mothypotes bestäms av frågeställningen Nollhypotes

11 Hypotesprövning om populationsmedelvärde när σ är okänd  Steg 2: Bestäm testvariabeln  Steg 3: Ska vi tro på H 0 eller H a ? Undersök om testvariabeln faller i acceptansområde (förkasta ej H 0 ) eller i kritiskt område (förkasta H 0 )  Om H a : µ < µ 0 ligger det kritiska området till vänster om det kritiska värdet t n-1;α  Om H a : µ > µ 0 ligger det kritiska området till höger om det kritiska värdet t n-1;1-α  Om H a : µ ≠ µ 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är t n-1;α/2 respektive t n-1;1-α/2  Steg 4: Dra slutsats 11

12 Hypotesprövning för populationsandel Förutsätter att 1.Stickprovet dragits som ett OSU 2.np(1-p) > 5  Steg 1: Formulera hypoteser och välj signifikansnivå H 0 : π = π 0 H a : π > π 0 H a : π < π 0 H a : π ≠ π 0  Steg 2: Bestäm testvariabeln 12

13 Hypotesprövning för populationsandel  Steg 3: Ska vi tro på H 0 eller H a ?  Om H a : π < π 0 ligger det kritiska området till vänster om det kritiska värdet z α  Om H a : π > π 0 ligger det kritiska området till höger om det kritiska värdet z 1-α  Om H a : π ≠ π 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är z α/2 respektive z 1-α/2  Steg 4: Dra slutsats 13

Ska vi tro på H 0 eller H a ? p-värdesmetoden  p-värde = sannolikheten för att vår testvariabel ska anta ett värde som det vi observerat eller ännu längre ifrån μ 0 sett i den riktning som mothypotesen pekar. p-värdet kan tolkas som den gräns (mätt som en sannolikhet) mellan var vi kan och inte kan förkasta H 0. Om p-värdet är litet är H 0 osannolik: vi är då mer benägna att tro på H a  Beslutsregel: om p-värdet < signifikansnivån förkastas H 0  Vid dubbelsidig mothypotes beräknas p-värdet * 2 14 Exempel: I en hälsoenkät tillfrågades 100 slumpmässigt utvalda anställda vid ett stort företag om huruvida man regelbundet motionerar eller ej. Svar erhölls från 84 anställda och av dessa svarade 65 ja. Undersök om det på 5 procents signifikansnivå finns belägg för påståendet att andelen regelbundna motionärer bland de anställda vid företaget understiger 85 procent genom att beräkna testets p-värde.

15 Feltyper och styrka  Typ I-fel: Att förkasta H 0 fast H 0 faktiskt är sann  Typ II-fel: Att inte förkasta H 0 fast H a faktiskt är sann Signifikansnivån α: sannolikheten (risken) för typ I-fel  Det råder ett motsatsförhållande mellan risken för Typ I-fel och risken för Typ II-fel: minskar vi signifikansnivån (risken för Typ I-fel) ökar risken för Typ II-fel.  Inom samhällsvetenskaperna brukar man anse att α = 0.05, 0.01 eller 0.10 ger en bra avvägning mellan typerna av fel. 15 Sanning om populationen Beslut baserat på stickprov H 0 sannH a sann Förkasta H 0 Typ I-felKorrekt beslut Förkasta ej H 0 Korrekt beslutTyp II-fel

Kapitel 7 Jämförelse av två populationer Sid

17 Exempel I ett medicinskt experiment sammankallade man 80 friska medelålders personer, som under tre månader fick pröva ett nytt medicinskt preparat. Syftet med studien var att utreda om preparatet ger förhöjt blodtryck som en biverkning. 40 av personerna fick preparatet, medan 40 fick placebo (ett verkningslöst preparat). Varken patient eller försöksledare visste under studietiden vem som fick vilket preparat (en så kallad dubbelblind studie). Varje person fick varje dag mäta sitt blodtryck, och efter tre månader sammanställdes informationen och räknades om till genomsnittligt blodtryck och standardavvikelse i respektive grupp. Går det, på 95 procents konfidensnivå, att påvisa några skillnader i genomsnittligt blodtryck mellan personer som fick aktivt preparat och de som fick placebo? 17 GruppAntal personer Genomsnittligt blodtryck Standardavvikelse 1 – Aktivt preparat – Placebo

18 Konfidensintervall för jämförelse av populationsmedelvärden 18 Krav:  vi har dragit två OSU  samplingfördelningarna för de två stickprovsmedelvärdena kan betraktas som normalfördelade Dubbelsidigt konfidensintervall: där värdet på t hämtas ur t-fördelningens kolumn 1 – α/2 och med n* - 1 frihetsgrader, där n* är den minsta av n 1 och n 2 Nedåt begränsat intervall: Uppåt begränsat intervall:

19 Konfidensintervall för jämförelse av andelar i två populationer Krav:  vi har dragit två OSU  np (1 – p ) > 5 för båda stickproven Dubbelsidigt konfidensintervall: där värdet på z hämtas ur normalfördelningstabellen Nedåt begränsat intervall: Uppåt begränsat intervall: 19

20 Hypotesprövning för jämförelse av populationsmedelvärden Krav:  vi har dragit två OSU  samplingfördelningarna för de två stickprovsmedelvärdena kan betraktas som normalfördelade Steg 1: Välj signifikansnivå och formulera hypoteser H 0 : µ 1 - µ 2 = d 0 där d 0 är den differens vi testar för (ofta sätts d 0 = 0) H a : µ 1 - µ 2 < d 0 H a : µ 1 - µ 2 > d 0 H a : µ 1 - µ 2 ≠ d 0 Ofta formuleras nollhypotesen så att den tillsammans med mothypotesen täcker in hela utfallsrummet. 20 Valet av mothypotes bestäms av problemställningen

21 Hypotesprövning för jämförelse av populationsmedelvärden Steg 2: Bestäm testvariabeln Steg 3: Ska vi tro på H 0 eller H a ?  Om H a : µ 1 - µ 2 < d 0 ligger det kritiska området till vänster om det kritiska värdet t n*-1; α  Om H a : µ 1 - µ 2 > d 0 ligger det kritiska området till höger om det kritiska värdet t n*-1; 1-α  Om H a : µ 1 - µ 2 ≠ d 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är t n*-1; α/2 respektive t n*-1; 1-α/2 Om testvariabeln faller i kritiskt område förkastas nollhypotesen. Steg 4: Dra slutsats 21 Kom ihåg: n* är den minsta av n 1 och n 2

22 Hypotesprövning för jämförelse av populationsandelar Krav:  vi har dragit två OSU  np (1 – p ) > 5 för båda stickproven Steg 1: Välj signifikansnivå och formulera hypoteser H 0 : π 1 - π 2 = d 0 där d 0 är den differens vi testar för (ofta sätts d 0 = 0) H a : π 1 - π 2 < d 0 H a : π 1 - π 2 > d 0 H a : π 1 - π 2 ≠ d 0 Ofta formuleras nollhypotesen så att den tillsammans med mothypotesen täcker in hela utfallsrummet. 22

23 Hypotesprövning för jämförelse av populationsandelar Steg 2: Bestäm testvariabeln där kallas för en sammanvägd (eller poolad) andel 23

24 Hypotesprövning för jämförelse av populationsandelar Steg 3: Ska vi tro på H 0 eller H a ? Testvariabeln jämförs med kritiskt värde enligt  Om H a : π 1 - π 2 < d 0 ligger det kritiska området till vänster om det kritiska värdet z α  Om H a : π 1 - π 2 > d 0 ligger det kritiska området till höger om det kritiska värdet z 1-α  Om H a : π 1 - π 2 ≠ d 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är z α/2 respektive z 1-α/2 Om testvariabeln faller i kritiskt område förkastas H 0 Alternativt: beräkna p-värdet Steg 4: Dra slutsats 24

25 Exempel 25 Sämre prognos för män med bröstcancer Bland män som insjuknar i bröstcancer är överlevnaden betydligt lägre än för kvinnor, enligt en studie vid Akademiska sjukhuset i Uppsala. 99 män med bröstcancer följdes under 15 år och jämfördes med 369 kvinnliga bröstcancerpatienter. Fem år efter diagnosen levde 55 procent av kvinnorna men bara 41 procent av männen. Östgöta Correspondenten, torsdag 27 oktober 2011 På vilken signifikansnivå har forskarna kunnat dra denna slutsats?

Parvisa observationer När samma enhet undersöks vid två olika tillfällen, till exempel före och efter en behandling, uppfylls inte kravet på oberoende mellan stickproven (vilket annars garanteras av att man dragit två OSU). 26 Deltagare Traditionellt Nytt Exempel: Vattenplaning är en stor trafikfara, och av stor betydelse är bildäckens förmåga att pressa undan vatten. För att undersöka vid vilken hastighet vattenplaning uppnås vid ett kontrollerat experiment på en vattenfylld bana provades två däcktyper: en med traditionellt däcksmönster och en med ett nyutvecklat mönster skapat just för att tränga undan vatten. Varje däcktyp provades på 10 typer av bilar eftersom bilens tyngd och aerodynamiska egenskaper också kan påverka vid vilken hastighet vattenplaning uppnås. Följande resultat erhölls. Är det nya mönstret bättre, sett till vid vilken hastighet vattenplaning uppnås (det är givetvis önskvärt att man ska kunna köra så fort som möjligt utan att få vattenplaning), jämfört med det traditionella mönstret? Utred frågeställningen på 5% signifikansnivå. Vilka antaganden måste göras för att metodiken ska vara tillämpbar?

27 Projektarbetet - kodning 27  Exempel 1: Fråga med endast två svarsalternativ. Äger du något motorfordon? ( 1 ) Ja( 0 ) Nej  Exempel 2: Fråga med många svarsalternativ, men det är endast tillåtet att fylla i ett enda svarsalternativ på frågan. Hur reser du oftast till Göteborg idag? ( 1 ) Med buss och byten mellan olika bussar ( 2 ) Med tåg och byten mellan olika tåg ( 3 ) Med buss och tåg och lämpliga byten ( 4 ) Med bil (egen bil eller samåkning med andra) ( 5 ) Med flyg ( 6 ) På annat sätt än ovanstående

28 Projektarbetet - kodning 28  Exempel 3: Fråga med många svarsalternativ, där det är tillåtet att fylla i flera alternativ. Hur reser du till Göteborg idag? (Flera svarsalternativ får ges) ( ) Med buss ( ) Med tåg ( ) Med bil (egen bil eller samåkning) ( ) Med flyg ( ) På annat sätt än ovanstående Här är det lämpligt att låta varje svarsalternativ utgöra en egen kolumn i Excel när vi kodar, och om respondenten valt ett specifikt alternativ får det koden 1, annars koden 0

29 Projektarbetet - kodning 29  Exempel 4: Attitydfrågor med svarsskalor av typen Mycket positiv ( 5 ) ( 4 ) ( 3 ) ( 2 ) ( 1 ) Mycket negativ  Exempel 5: Frekvensfrågor Jag reser till Göteborg ( 1 ) mindre än en gång per år ( 2 ) 1-6 gånger per år ( 3 ) nästan varje månad ( 4 ) 1-3 gånger per månad ( 5 ) 1-3 gånger per vecka ( 6 ) varje dag eller nästan varje dag  Exempel 6: Hur gammal är du? ______________ (skriv in resultatet, bilda grupper i efterhand)

30 Projektarbetet - kodning 30  Kodning av saknade svar:  Om ”illegalt” bortfall lämna cellen tom eller markera med en *  Om ”legalt” bortfall ge någon speciell kod för detta (exempelvis -99)  Exempel: Fråga 4: Reser du med buss när du reser till Göteborg? ( ) Ja( ) Nej Fråga 5: Om du svarat Nej på föregående fråga, fortsätt till fråga 6 Vilket bussbolag reser du oftast med vid starten från Linköping? ( ) SweBuss( ) Bus4U( ) Annat, nämligen ____________ Om respondenten svarat Nej på fråga 4 ska inget svar ges på fråga 5. Bortfallet är legalt och kodas med  99