Alternativ till  2-test

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
void hittaMax(int tal[], int antal, int *pmax) { int i; ??=tal[0]; for(i=1;i??) ??=tal[i]; } int main() { int v[]={1,2,3,4,2}; int.
Point Estimation Dan Hedlin
hej och välkomna EKVATIONER Ta reda på det okända talet.
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Klusterurval, forts..
Användande av hjälpinformation: Kvotskattning
Föreläsning 2 21 jan 2008.
Samband mellan kvalitativa variabler Sid
1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL10 732G81 Linköpings universitet.
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
Lösta och olösta problem i tidsvärdesestimering
732G22 Grunder i statistisk metodik
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Rapport sept 2013 ”Kvalitetsstjärnan” Nationellt kvalitetsregister Del 2: Fokus på Stjärnvariabler I Del 1 undersöktes internt bortfall i Kvalitetsstjärnans.
Out of home Jannike Sköldebjer MMS. Bakgrund People Meter-panelen mäter endast tittandet i hemmet. Gäster representerar panelmedlemmar som tittar i annans.
Tillämpad statistik Naprapathögskolan
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Kund- och Marknadsanalys/MJ Sid 1 Martin Johansson Bortfall, ”pragmatiker” och statistiktalibaner.
Out of home Pirjo Svedberg MMS. Bakgrund Panelen mäter endast tittandet i hemmet. Gäster representerar panelmedlemmar som tittar i annans hem. För att.
Skattningens medelfel
Centrala Gränsvärdessatsen:
FK2002,FK2004 Föreläsning 2.
Samhällsvetenskapliga metoder
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Stratifierat urval OSU är tillämpbart för (ram)populationer där ett slumpmässigt valt element är “representativt” för hela populationen Om man på förhand.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
FL6 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Simulering Introduktion Exempel: Antag att någon kastar tärning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Linjär regression föreläsning 9
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
Föreläsning 11732G26 Surveymetosik med uppsats Urvalsvikter vid dragning med återläggning av PSU Vid urval utan återläggning: Använd analogin med Q i här:
Några allmänna räkneregler för sannolikheter
732G22 Grunder i statistisk metodik
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Grundläggande statistik, ht 09, AN
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Enkäter Strukturerat frågeformulär. Utgångspunkter A) Undersökningens syfte * Vad skall undersökas? * Vilka frågeställningar skall besvaras med hjälp.
Enkäter Strukturerat frågeformulär. Studentspegeln 2007 ”Studentspegeln är en undersökning om olika kvalitetsaspekter inom den grundutbildningen. Den.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Presentationens avskrift:

Alternativ till  2-test Det vanliga sättet att beteckna komponenterna i teststorheten (2), dvs. med Oi , Ei , Oij och Eij är inte tillräckligt för att kunna utreda vari problematiken finns med att använda testet vid icke-OSU. För oberoendetestet: Låt pij = P (Ett element kategoriseras i cell (i , j ) ) , dvs. sannolikheten att en post i datamaterialet har ett värde på den ena variabeln (x) som hamnar i kategori i och ett värde på den andra variablen (y) som hamnar i kategori j. Marginalsannolikheten för radkategori i betecknar vi pi+ och marginalsannolikheten för kolumnkategori betecknar vi p+j

Terminologin går förstås tillbaka till sannolikhetsläran: Om en tvådimensionell slumpvariabel (X , Y ) har den simultana sannolikhetsfunktionen så beräknas den marginella sannolikhetsfunktionerna för X resp. Y som Marginalsannolikheten , pi+ , för en radkategori är alltså den marginella sannolikhetsfunktionens värde för denna kategori i den (kategoriserade) radvariabeln (x ) Marginalsannolikheten , p+j , för en kolumnkategori är alltså den marginella sannolikhetsfunktionens värde för denna kategori i den (kategoriserade) kolumnvariabeln (y )

Uttryckt i cell- och marginalsannolikheter gäller då att vid ett oberoendetest testas Cellsannolikheterna skattas som och marginalsannolikheterna som Om H0 är sann måste förstås också gälla och teststorheten mäter egentligen hur stora avvikelserna är från 0:

Skillnaden vid homogenitetstest är att radsummorna är fixa (n1 , … , nr )  Nollhypotesen skall då skrivas som

Wald’s test: Betrakta en fyrfältstabell (22 korstabell) 1 2 p11 p12 p1+ p21 p22 p2+ p+1 p+2 Omformulering av nollhypotesen:

Om H0 är sann får vi: Samma ekvation fås vid utveckling av varje pij

Detta ger nu dvs. vi får en enda ekvation som representerar fyra (22) likheter. Vid en större tabell (rc) blir det (r – 1)∙(c – 1) ekvationer För en fyrfältstabell låter vi nu

Skattningen fungerar i alla urvalsdesigner om urvalsvikterna kan bestämmas. Om simultana inklusionssannolikheter också är kända: Teststorhet För (r – 1)∙(c – 1) ekvationer fås en parametervektor  Teststorheten blir då en vektor/matris-produkt (förklaras närmare i kursen Multivariata metoder)

Bortfall I ”teorin” kan varje urvalsdesign analyseras och optimala skattningar med tillhörande variansskattningar kan härledas. I praktiken uppstår ett stort bortfall i undersökningen vars negativa konsekvenser överskuggar den optimalitet ho skattningar man lyckats påvisa. Egentligen är det bättre att lägga ned energi på att minimera bortfallet än att utreda vilken skattningsmetodik som ger lägst bias resp. lägst varians. Typer av bortfall: Totalbortfall: Hela elementet saknas (inga egenskaper har observerats) Partiellt bortfall (informulärsbortfall): Vissa egenskaper har inte observerats.

M R Hur inverkar bortfallet? Enkel konstruktion: Bortfallsstratumansatsen Målpopulation antas vara indelad i ett svarandestratum (R ) och ett bortfallsstratum (M ). R M …men naturligtvis vet vi inte vilket element som tillhör vilket stratum.

Populationsmedeltalet kan då skrivas och den skattning vi har från urvalet är därmed en skattning av Skattningen kan alltså inte sägas vara väntevärdesriktig. Låt vara skattningen och anta att 

 Storleken hos Bias beror på Hur stort bortfallsstratumet är (NM ) Hur stor skillnad det är mellan de bägge stratummedeltalen

Modell för bortfall Låt i kallas propensity score för enhet i och vad som är viktigt är hur denna beror på det som skall undersökas. (Någon svenskspråkig term existerar nog inte)

Bortfallen i en undersökning kan klassas till tre olika kategorier: MCAR (Missing Completely at Random) Propensity score beror varken på undersökningsvariabeln eller på bakgrundsvariabler. Medeltalsskattningen kan här sägas vara ungefär väntevärdesriktig, dvs. bortfallet kan ignoreras. 2. MAR (Missing at Random given covariates) Propensity score beror här på bakgrundsvariablerna men inte på undersökningsvariabeln.  Bortfallsmekanismen kan modelleras och skattningar kan justeras utifrån snedfördelning över bakgrundsvariablerna. NMAR (Not Missing at Random) Propensity score antas här bero på undersökningsvariabeln. Bortfallet kan då varken ignoreras eller justeras för utifrån bakgrundsvariabler.

Metoder för bortfallshantering: Förebyggande av bortfall (egentligen mest viktig). Sid. 333-336 i Lohr: Allt som har med en undersöknings genomförande skall noggrant optimeras (val av datainsamlingsmetod, intervjuformulär, intervjuare, tidpunkter för intervjuer, …) Efterhandsjustering av totalbortfall Bortfallsuppföljning (för NMAR) Kompensationsvägande metoder (för MAR) Viktjustering utifrån klassificering Poststratifiering Raking Kalibrering Substitution (för MCAR) Imputering av partiella bortfall (för MAR)

Bortfallsuppföljning (Tvåfas-sampling enligt Hansen & Hurwitz) OSU designat för n element (fas-ett-urval) men svar har endast erhållits från nR. I denna del har beräknats Bland de återstående nM = n – nR elementen görs ett nytt OSU med en dyrare datainsamlingsmetod av nM element där  är i storleksordningen 0.2 (20%). Utgångspunkten är att svar erhålls från samtliga i detta fas-två-urval och vi kan beräkna

En skattning av populationsmedeltalet beräknas nu som ett stratifierat medeltal: En approximativ variansskattning för denna skattning är: Variansskattningen blir approximativt väntevärdesriktig om svar fås från alla i fas-två-urvalet. Vidare, om svar fås från alla i fas-två-urvalet är bortfalls-bias eliminerad. Bortfallsandelen räknas då som 0%. Om inte svar fås från alla beräknas den nya bortfallsandelen som

Svar erhölls från 310 personer med följande resultat Exempel I en studie skickades en enkät till ett OSU om 500 personer. Bland annat ställdes frågorna ”Vad betalade du senast för en måltid på en lunchrestaurang” samt ”Tittar du regelbundet på matlagningsprogram i TV?” Svar erhölls från 310 personer med följande resultat Fråga Totalsumma Standardavvikelse ”Lunchpris” 22320 13 ”Matlagningsprogram 75 För att komma till rätta med bortfallet gjordes en uppföljande undersökning med telefonintervjuer i ett OSU om 40 personer bland de 190 som ej besvarat enkäten. Alla besvarade de två frågorna i denna uppföljning med resultat Fråga Totalsumma Standardavvikelse ”Lunchpris” 2630 11 ”Matlagningsprogram 13 Här är alltså  = 40/190  21%

Skattningar och konfidensintervall För genomsnittligt lunchpris:

För andelen regelbundna tittare på matlagningsprogram:

Kompensationsvägning (för MAR) Viktjustering utifrån klassificering Utgå från att vi känner till inklusionssannolikheten i för varje enhet i populationen. Det gör vi ju om vi har ett OSU.  Urvalsvikterna är Används en (eller flera) av bakgrundsvariablerna för att klassindela det ursprungliga urvalet i c klasser  S1, … , Sc. Till dessa klasser förs även de som svarat  SR,1, … , S R,c Beräkna summan av urvalsvikterna i varje klass för såväl det ursprungliga urvalet som de svarande:

Inom varje klass (j = 1, …, c ) justera urvalsvikterna för de svarande enligt För bortfallen, sätt Beräkna punktskattningar enligt

För ett OSU blir skattningarna speciellt enkla: Poststratifiering Klassificering görs på samma sätt som vid viktjustering, men här tar man redan på hur stora klasserna är i hela populationen N1 , … , Nc och en punktskattning av populationsmedeltalet beräknas som

Substitution (för MCAR) Raking En metod som skapar poststratifiering iterativt när klassificieringen görs utifrån fler än en bakgrundsvariabel. Kalibrering Den mest moderna av alla kompensationsvägningsmetoder, men tas ej upp i Lohr Substitution (för MCAR) Bortfallen ersätts med nya urval av element till dess att urvalsstorleken är uppnådd. Metoden kan aldrig minska bortfallet eller dess ev. bias. Används när MCAR är uppenbart och man behöver ha precision i skattningarna. Om stratifierat urval görs liknar metodiken den som används vid s.k. kvoturval, i vilka man gör urval till dess att planerade urvalsstorlekar inom varje stratum har erhållits.

Imputering Metodik för att ersätta sakande värden på vissa av egenskaperna hos ett element. Flera varianter finns: Medelvärdesimputering: Samtliga element (respondenter) i urvalet klassas på motsvarande sätt som vid viktjustering. För en respondent där värde saknas på en (eller flera) egenskaper används medelvärdet för övriga respondenter inom respondentens klass som ersättningsvärde(n). Skall bara användas när MCAR kan antas inom den aktuella klassen.

”Hot deck”-imputering: Klasser av respondenter görs som tidigare Ett saknat ersätts med en annan respondents värde från samma klass. Den andra respondenten kan väljas sekventiellt, dvs. den respondent som var den senaste med ett värde på egenskapen innan den aktuella respondenten tillfrågades/observerades slumpmässigt så ”nära” den aktuella respondenten som möjligt (närmaste granne, tvillingimputering) Regressionsimputering: För de respondenter som har värden den aktuella egenskapen anpassas en regressionmodell (linjär, logistisk, Poisson beroende på skalan hos värdet) med andra egenskaper som förklaringsvariabler. De senare måste finnas observerade för samtliga respondenter. Den skattade modellen används sedan för att prediktera värdet där det saknas.

Mer avancerad imputering: Regressionsimputering kan kombineras med påförda helt slumpmässiga fel och kallas då stokastisk regressionsimputering. ”Multiple imputation” är en nyare mer algoritmisk metod som har visat sig vara effektiv Vid all imputering är det viktigt att komma ihåg att de variansskattningar man beräknar med den vanliga formlerna är underskattade. Imputeringen ger en förväntad lägre variation än vad originaldata skulle ha gett.