Presentation laddar. Vänta.

Presentation laddar. Vänta.

Urvalsmetoder och skattningsmetodik Kursen Undersökningsmetodik och dataanalys Mats Nyfjäll Statisticon.

Liknande presentationer


En presentation över ämnet: "Urvalsmetoder och skattningsmetodik Kursen Undersökningsmetodik och dataanalys Mats Nyfjäll Statisticon."— Presentationens avskrift:

1 Urvalsmetoder och skattningsmetodik Kursen Undersökningsmetodik och dataanalys Mats Nyfjäll Statisticon

2 Innehåll •Introduktion till designbaserad urvalsteori •Horvitz-Thompson-estimatorn •Sannolikhetsurvalsmetoder samt skattningsmetodik för •Obundet slumpmässigt urval •Systematiskt urval •Stratifierat urval •Klusterurval och tvåstegs individurval •Domänskattningar •Vi antar, för alla diskussioner, att icke urvalsfel (mätfel, bortfallsfel, ramfel, bearbetningsfel) är negligerbara

3 En statistisk undersökning kan karaktäriseras på följande sätt, nyckelord är kursiva (bygger till stor del på Dalénius (1974)):

4 Framtagande av mätinstrument (mätkoncept) baserat på en problem- eller frågeställning Tänkbar uppställning över moment som involverar statistiska/metodologiska aspekter i undersökningsprocessen. Definiera populationen Bestäm urvalsramen Bestäm urvalsmetod Bestäm stickprovsstorlek Genomför datainsamlingen Analys av resultat Rapportering

5 Grunder – population och parametrar •Vi är intresserade av en väldefinierad avgränsad ändlig population som vi betecknar U •Vi tilldelar individerna (elementen) i populationen ID- nummer (identifikationsnummer) 1,2,3,…,k,…,N Populationsmängden kan alltså skrivas U={1,2,3,…,k,…,N} •Undersökningsvariabler betecknas y och y k är värdet på undersökningsvariabel y för individ k. •En viktig parameter i survey sampling-sammanhang är populationstotalen (med avseende på undersökningsvariabel y ) •Ett annat exempel på en viktig parameter är populationsmedelvärdet

6 Grunder – population och parametrar •Ytterligare ett exempel är populationsvariansen •och populationsstandardavvikelsen •Ibland är man intresserad av kvoten mellan två totaler •t.ex. kan y 1 vara belopp en individ spenderar på boendekostnad och y 2 kan vara individens inkomst. R är då andel av inkomst som spenderas på boende

7 Varför urval? •Ofta kan populationen inte totalundersökas av kostnads- och tidsaspekter. •Två frågor som undersökaren då ställs inför är 1 Hur ska urvalet dras på bästa sätt? 2 Hur ska de observationsdata som samlas in användas för att beräkna en så bra skattning av populationsparametern som möjligt? •Dessa två frågor tillsammans kallas ibland för strategi •Vi ska begränsa oss till att studera sannolikhetsurval som urvalsmetod. •Sannolikhetsurval innebär att vi använder ett urvalsförfarande som är sådant att varje populationsindivid har en positiv (och känd) sannolikhet att väljas ut. •Med urvalsdesign menas den metod som används för att dra ett urval av individer från populationen. •Icke sannolikhetsurval kan i vissa situationer motiveras (läs på egen hand i Christensen kap7)

8 Estimation av populationsparametrar – generella överväganden •Urvalsteori kan angripas från olika perspektiv. Vi kommer att tillämpa ett synsätt som kallas designbaserad urvalsteori (till skillnad från modellbaserad). Detta synsätt har många fördelar och är det ”moderna” angreppssättet som läroböcker inom urvalsteori idag (oftast) tillämpar. •Låt s beteckna det stickprov vi erhåller (oavsett vilken urvalsdesign vi använder) och n dess storlek. •Stickprovsmängden betecknas då s={1,2,…,k,…,n} •Ett viktigt begrepp då populationsparametrar ska skattas är begreppet urvalssannolikhet (ibland används benämningen inklusionssannolikhet) •Urvalssannolikheten för en godtyckligt individ betecknas  k och definieras som sannolikheten att individ k kommer att ingå i det stickprov som kommer att dras •Vi illustrerar med ett enkelt exempel

9 Estimation av populationsparametrar – generella överväganden Antag att vi har en population som endast består av N=6 personer och att vi ska dra ett urval om n=2 personer Populationen ser ut enligt

10 Tabellen nedan visar alla tänkbara urval om två individer Notera att individ A förekommer i 5 av de 15 tänkbara urvalen. Om den urvalsmetod som tillämpas har den egenskapen att alla dessa 15 tänkbara urval är lika sannolika har alltså individ A urvalssannolikheten  k =5/15=1/3. Samma urvalssannolikhet gäller även för de övriga individerna. En urvalsdesign som har den egenskapen att alla individer har samma sannolikhet att bli utvalda kallas för en självvägd urvalsdesign Estimation av populationsparametrar – generella överväganden

11 •Faktum är att den urvalsdesign vi exemplifierade på föregående sida är ett obundet slumpmässigt urval (OSU) •Definitionen av OSU är alltså Definition Obundet slumpmässigt urval: Alla kombinationer av n individer (som väljs från N individer) ska ha samma sannolikhet att bli utvalda. •Vi kommer att diskutera OSU mer i detalj senare •Ytterligare en viktig aspekt (kopplad till det designbaserade perspektivet) är att undersökningsvariabeln y betraktas (åtminstone vid en viss tidpunkt) som fixa konstanter. •Detta synsätt skiljer sig förmodligen från vad ni sett på tidigare kurser i statistik

12 Estimation av populationsparametrar – generella överväganden •Troligtvis har ni på tidigare kurser betraktat en variabel y (eller x ) som en slumpvariabel med ett förväntat värde och varians E(y)=  y  V(y)=   •Det slumpmässiga, utifrån designbaserad urvalsteori, är urvalsdesignen som ger upphov till en mängd olika potentiella realisationer av stickprov. •För att uttrycka denna slumpmässiga komponent används en inklusionsindikatorvariabel I k vilken definieras enligt •Då inklusionsindikatorn kan anta två värden beroende på om individ k ingår i urvalet eller inte kan I k betraktas som en slumpvariabel, närmare bestämt en Bernouilli-fördelad slumpvariabel

13 Estimation av populationsparametrar – generella överväganden •Vi kan därför uttrycka det förväntade värdet för I k. Notera att Pr(k  s)=Pr(I k =1) vilket ger E(I k ) = 1  Pr(I k = 1)+0  Pr(I k = 0) = Pr(I k =1) =  k d.v.s. förväntat värde för inklusionsindikatorvariabeln är urvalssannolikheten •Detta resultat kommer att visa sig mycket användbart senare •Det fullständiga namnet på  k är första ordningens inklusionssannolikhet. Det finns alltså även andra ordningens inklusionssannolikhet vilken är betydelsefull för att beräkna variansen för en estimator.

14 Estimation av populationsparametrar – Horvitz-Thompson-estimatorn •Vi ska nu titta på ett specifikt sätt att skatta populationsparametrar, d.v.s. en estimator •Estimatorn föreslogs 1952 i en artikel av Horvitz och Thompson •De resultat som presenteras nedan är helt generella och giltiga oavsett urvalsdesign. •Antag att vi vill skatta populationstotalen •Horvitz-Thompson estimatorn av denna parameter ges av •d.v.s. vi summerar de variabelvärden som ingår i stickprovet s, men viktar upp värdena med sin urvalssannolikhet

15 Estimation av populationsparametrar – Horvitz-Thompson-estimatorn •Horvitz-Thompson estimatorn (HT-estimatorn) är en förväntningsriktig estimator (oavsett urvalsdesign) av populationstotalen. Visa detta: •Ett begrepp som är intimt förknippat med urvalssannolikhet är begreppet designvikt (d.v.s. vikt kopplat till design) vilket definieras enligt •Detta gör att vi kan skriva HT-estimatorn enligt

16 Estimation av populationsparametrar – Horvitz-Thompson-estimatorn •Detta är praktiskt av två skäl: dels slipper vi bråkuttrycket i summationen och dels kan designvikten tolkas •Exempel: från en population omfattande N=374 individer drogs ett sannolikhetsurval omfattande n=5 individer. Nedanstående tablå visar vissa resultat •Designvikten tolkas ibland (lite populärt) som hur många personer en viss individ representerar. Vi ser t.ex. att individ 7 representerar 71.4 personer med sitt värde på y •Skatta populationstotalen baserat på dessa data.

17 Skattning av populationsmedelvärdet •Ofta(re än totalen) är parametern populationsmedelvärdet av intresse •Det finns olika sätt att skatta denna parameter. Ett alternativ är att byta ut populationstotalen i täljaren mot HT-estimatorn av populationstotalen d.v.s. Är detta en bra skattning av populationsmedelvärdet? Är estimatorn förväntningsriktig? Finns det någon alternativ estimator?

18 Skattning av populationsmedelvärdet •Vi kan betrakta antalet individer i populationen N som en total, närmare bestämt summan av N stycken ettor •Detta betyder att vi kan skatta N med HT-estimatorn enligt samt att populationsmedelvärdet kan skattas med estimatorn (kallas ibland det vägda stickprovsmedelvärdet) •Skatta populationsmedelvärdet med denna estimator

19 Skattning av populationsmedelvärdet •Är denna estimator bättre? •Vi kan konstatera att för flera urvalsdesigner (t.ex. OSU) gäller att, vilket innebär att de två estimatorerna sammanfaller. För de designer där detta inte gäller skiljer sig de båda estimatorerna åt. •Då estimatorn är kvoten mellan två slumpvariabler är den endast approximativt förväntningsriktig. Dock är biasen negligerbar vid stora stickprov. •Fördelen att skatta även N i nämnaren är att den estimatorn ofta har mindre varians (osäkerhet) vilket gör att ett konfidensintervall blir snävare. •Är estimatorn, d.v.s. det vanliga stickprovsmedelvärdet en tänkbar estimator i ovanstående exempel?

20 Skattning av populationsmedelvärdet – kvalitativa variabler •Om undersökningsvariabeln är en kvalitativ variabel, t.ex. en ja-nej fråga är vi ofta intresserade av att skatta proportionen t.ex. ja-svar. •Om vi kodar undersökningsvariabeln så att 1=ja och 0=1, då är alla uttryck hittills presenterade giltiga. Notera att medelvärdet av en 0-1 variabel är proportionen ettor. Låt Då är antalet personer i populationen som svarar ja på frågan Vidare är proportionen personer i populationen som svarar ja på frågan

21 Skattning av populationsmedelvärdet – kvalitativa variabler •Om en kvalitativ variabel har fler än två kategorier, t.ex. en femgradig attitydskala, eller en fråga med val bland fem olika produkter, kan proportionen för respektive kategori skattas genom att koda om kategorierna till 0-1 variabler (dummykodning). •Exempel. Antag följande frågeställning: Vilken omfattning av tjänsten X skulle du kunna vara intresserad av? •Genom att dummykoda variabeln kan vi skatta proportionen för respektive kategori på det sätt som tidigare beskrivits

22 Skattning av populationsmedelvärdet – kvalitativa variabler •Exempel på beräkningar. Samma population och urval som tidigare men med en kvalitativ variabel •Skatta populationstotalen och populationsmedelvärdet för variabel y 2

23 Sammanfattning •En generell förväntningsriktig estimator av parametern populationstotalen är HT-estimatorn •En generell förväntningsriktig estimator av parametern populationsmedelvärdet är en alternativ (ofta bättre) estimator är den approximativt förväntningsriktiga estimatorn En slutsats av detta är att en nyckelkomponent för förväntningsriktiga skattningar är designvikten

24 Varians för en estimator •Vi har hittills diskuterat punktskattningar men ofta finns intresse av att uttrycka osäkerheten i dessa punktskattningar •Vi såg att punktskattningarna kan uttryckas mycket generellt, d.v.s. oavsett urvalsdesign. Samma sak gäller för variansskattningar som ligger till grund för konfidensintervallsberäkningar. •Dock är det så att de matematiska uttrycken för variansen blir (betydligt) mer komplexa än punktskattningarna •Jag tänkte därför inte visa de generella uttrycken utan kommer att diskutera variansen för några explicita urvalsdesigner senare. •OM variansen (eller variansestimatorn) för en viss estimator, t.ex. (som t.ex. kan vara en total eller ett medelvärde eller egentligen vilken estimator som helst), vore känd och den betecknades skulle ett konfidensintervall för parametern  kunna konstrueras enligt under förutsättning att stickprovet är tillräckligt stort

25 Några vanliga urvalsdesigner - OSU •Vi definierade tidigare OSU enligt •Definition Obundet slumpmässigt urval: Alla kombinationer av n individer (som väljs från N individer) ska ha samma sannolikhet att bli utvalda. •Många brukar lite slarvigt säga att OSU definieras enligt: ”alla individer har lika stor sannolikhet att väljas ut”. Detta är dock inte en korrekt definition utan en konsekvens av ovanstående definition. •Egenskapen att alla individer har lika stor sannolikhet att väljas ut, d.v.s. en självvägd design, gäller även t.ex. för systematiskt urval, stratifierat proportionellt urval (med OSU i strata), klusterurval med OSU av kluster

26 OSU - forts •Vid OSU gäller att alla individer har samma sannolikhet att väljas ut, urvalssannolikheten är därför en konstant vilken ges av  k = n/N ( n/N kallas för urvalsfraktionen) •Designvikten vid OSU är följaktligen N/n •Visa att för OSU gäller följande d.v.s. att HT-estimatorn reduceras till det vanliga stickprovsmedelvärdet •Det vanliga stickprovsmedelvärdet, vilket brukar var det som presenteras i grundläggande statistikböcker, är alltså ett specialfall av HT-estimatorn

27 OSU - forts •Exempel: ur en population med N=6336 individer drogs ett OSU omfattande n=6 individer. •Undersökningsvariabeln antal biobesök senaste månaden registrerades och de sex utvalda personernas svar var 2, 0, 5, 3, 3, 1 •Skatta medelvärdet av antal biobesök under den senaste månaden i populationen, dels via det vanliga stickprovsmedelvärdet dels via HT-estimatorn

28 OSU - forts •Om urvalsdesignen är sådan att alla individer i populationen har samma sannolikhet att väljas ut (självvägd design) är designvikten konstant (lika) för alla individer i stickprovet. •Vi kan då (på samma sätt som på föregående sida) ”bryta” ut designvikten i täljaren och nämnaren och förkorta bort den. Kvar blir då det ”vanliga” medelvärdet •I alla andra urvalsdesigner där designvikterna inte är samma för alla individer i hela populationen bör alltså designvikterna ingå i beräkningarna. •Det vanliga stickprovsmedelvärdet är i en sådan situation, d.v.s. när designvikterna varierar, inte en bra estimator (den är inte förväntningsriktig).

29 Variansskattningar vid OSU •Vid OSU blir variansen för medelvärdesestimatorn det ”gamla vanliga” uttrycket •I Moore används följande beteckningar (sid 399) •En skillnad i uttrycken är (1-n/N), den s.k. ändlighetskorrektionen, vilken ska vara med i variansuttrycket med om populationen är ändlig •För att skatta denna varians måste vi skatta populationsvariansen, lämpligen med stickprovsvariansen vilket ger variansen

30 Variansskattningar vid OSU •Vi får vilket ger Variansen för skattas alltså enligt Under förutsättning att samplingfördelningen för kan betraktas som normalfördelad kan ett 95% konfidensintervall för bildas enligt Med 95% säkerhet täcker intervallet [0.9, 3.7] det sanna medelvärdet i populationen

31 Variansskattningar vid OSU – kvalitativ variabel •På samma sätt som uttrycken för medelvärdesberäkningar var giltiga om den kvalitativa variabeln är kodad 0-1 är variansskattningen giltig •I Moore (sid 587) presenteras variansskattningen för en dikotom variabel på följande sätt •Visa att uttrycket ovan är identiska med Moores uttryck, så när som på ändlighetskorrektionen •Antag att vi kodar om de sex personernas svar på antal biobesök så att de som har gått 0,1 eller 2 gånger kodas 0 och övriga 1 (högfrekventa biobesökare). Bilda ett 95% konfidensintervall för andelen högfrekventa biobesökare i populationen. Vad anser du om intervallets giltighet? Vilket innebär variansskattningen

32 •Nedanstående diagram visar hur felmarginalen (halva konfidensintervallets längd) minskar när stickprovsstorleken ökar vid skattning av en populationsandel (populationen antas vara stor, P antas vara 0.5) •Vi ser att de största precisionsvinsterna uppnås när stickprovsstorleken ökar från säg 50 personer till •En ökning från 1000 till 2000 ger inte lika stora relativa precisionsvinster. •Vid små stickprovsstorlekar (diagrammet börjar vid n=30 ) är osäkerheten mycket stor

33 Några aspekter •Att uttrycka en dikotom variabel i termer av proportioner kan ha vissa pedagogiska poänger. •Dock, om du genomför en undersökning låter du (troligtvis) en dator göra alla beräkningar. Det är då tryggt att veta att du inte behöver göra någon åtskillnad på hur beräkningen sker om din variabel är kvantitativ eller kvalitativ •OBS!!! detta gäller endast om den kvalitativa variabeln är dikotom med värdena 0-1. (Om du kodar en dikotom variabel 1 och 2 blir resultaten fel.) •I många läroböcker får man intrycket att skattningen av proportioner och medelvärden är två olika saker. Från ett survey sampling perspektiv med en ändlig population, är det inte olika saker (under förutsättning att kodningen är 0- 1).

34 OSU - forts •Fördelar med OSU •OSU är en urvalsmetod som (oftast) ger en god representation av populationen. Generaliseringar från urval dragna med OSU blir alltså möjliga (om inga andra felkällor påverkar resultaten negativt). •OSU är det den urvalsmetod som många analystekniker utgår från vilket gör att de matematiska uttryck som OSU ger upphov till är lättillgängliga (i olika böcker). •Nästan alla programpaket (MINITAB, SPSS, SAS, Excel) utgår i grundläget (default) från OSU. Nackdelar med OSU •Det finns urvalsmetoder som är mer effektiva än OSU (större precision). •OSU ger ingen garanti för att vi erhåller ett minimum av individer från intressanta redovisningsgrupper. •Trots att OSU är en av de mest kända urvalsmetoderna är det inte många som vet hur ett OSU i praktiken dras. Vi går igenom ett sätt att dra ett OSU på Inlämningsuppgift 1.

35 Systematiskt urval - SY P opulationsstorleken N dividerat med stickprovsstorleken n kallas samplingintervallet eller urvalsintervallet. Beteckna heltalsdelen av detta med a Systematiskt urval: Bland de a första individerna i urvalsramen väljs en slumpmässig startpunkt (med lika sannolikhet). Därefter tar vi systematiskt ut var a:te individ i ramen. •Exempel: om vi har N=500 individer i populationen och vill ta ett stickprov om n=50 individer har vi ett samplingintervall på a=N/n=500/50=10. Vi väljer en slumpmässig startpunkt bland de a=10 första individerna (hur?). Antag att startpunkten blev 3. Stickprovet utgörs då av individerna 3, 13, 23, 33,…, 483, 493. •Detta förfarande medför att det endast finns a möjliga stickprov (jämför detta med OSU). Vi väljer ett av dessa tänkbara stickprov vilket gör att urvalssannolikheten för samtliga individer är 1/a

36 SY - forts •Om kvoten N/n inte blir ett heltal, vilket ofta är fallet i praktiken, kan det ibland bli svårt att erhålla den önskade stickprovsstorleken. •Exempel: Antag att populationen består av N=1 539 individer och vi vill dra ett stickprov som omfattar n=200 individer. Vi får då N/n=1539/200=7.69. Det finns då två alternativ: 1. Välj samplingintervallet a= 7, d.v.s. välj var 7:e individ. Ger en stickprovsstorlek på 220 individer 2. Välj samplingintervallet a= 8, d.v.s. välj var 8:e individ. Ger en stickprovsstorlek på 192 individer Hur ska detta hanteras? •Det finns en variant av SY som gör att vi når just n=200. Blir mer komplicerat. •Dra ett urval större eller mindre än det sökta •Dra ett urval mindre än det sökta och ”fyll på” med individer (ej att rekommendera) •Detta problem minskar dock när populationen är (mycket) stor i förhållande till stickprovsstorleken.

37 SY - forts Fördelar med systematiskt urval •Systematiskt urval är en enkel urvalsprincip som är lätt att implementera. Om urvalsramen är ordnad efter någon variabel som är korrelerad med undersökningsvariablerna kan systematiskt urval ge bättre säkerhet än OSU. Exempel: Antag att urvalsramen exempelvis är ordnad efter ålder och inställningen till den eller de frågeställningar som ställs är olika i olika åldrar. Systematiskt urval ger då en god spridning över alla åldersklasser och säkerheten i skattningarna kan bli bättre än vid OSU. Nackdelar med systematiskt urval •Två av nackdelarna som rör OSU är även giltiga för systematiskt urval. Nämligen: andra metoder kan ge bättre precision, vissa redovisningsgrupper kan bli lågt representerade •I vissa situationer är det omöjligt att erhålla den önskade stickprovsstorleken •Om det föreligger systematik i urvalsramen kan systematiskt urval ge snedvridna resultat.

38 Punktestimation vid SY •HT-estimatorn är (naturligtvis) även giltig vid SY-design Skattningen av populationsmedelvärdet ges av •Där designvikten ges av samplingintervallet a, dvs •Då samplingintervallet är approximativt lika med N/n betyder det att designvikten vid SY är approximativt lika som vid OSU. Om kvoten a=N / n råkar vara ett heltal är designvikterna identiska vid SY och OSU. •Om N/n är ett heltal gäller att, annars gäller att •De uttryck som gäller för OSU används därför ofta även om ett systematiskt urval har dragits. Detta gäller både punktskattningar och variansskattningar. Beträffande punktskattningen torde detta förfarande inte påverka negativt, däremot vad gäller variansskattningen är det mer tveksamt om man kan ta ”OSU-formeln” ograverat. Variansen vid ett systematiskt urval beror mycket på hur urvalsramen är ordnad

39 Exempel på beräkningar vid SY •Antag att vi vill skatta antal personer som såg ett Robinson- avsnitt på TV. Vi antar att populationen är alla svenska medborgare över 5 år och att populationsstorleken är N= •Vi vill dra ett SY-urval omfattande n=100 individer. Vi har att N/n= /100= ≈ 71325=a. D.v.s. a ≈ N/n •Vi erhåller n=100 individer i vårt stickprov vilka kontaktas och tillfrågas. Antag vidare att summan av variabelvärdena för observationerna i stickprovet var d.v.s. 41 personer svarade att de såg programmet

40 Exempel på beräkningar vid SY •Skattningen av populationstotalen med HT-estimatorn blir då •Skattning av populationsstorleken N blir •Skattning av andelen som såg Robinsonavsnittet blir •Notera att om samma 100 personer hade blivit utvalda med OSU hade skattningarna blivit samt

41 Stratifierat urval En stratifiering av en population innebär att vi delar in population i icke överlappande tillsammans heltäckande grupper kallade strata (stratum i singularis). Vi drar sedan (oberoende) urval ur respektive stratum med någon urvalsmetod. Exempel: •Om urvalsmetoden OSU används i respektive stratum har vi stratifierat OSU, benämns STOSU •Om urvalsmetoden systematiskt urval har används i respektive stratum har vi stratifierat systematiskt urval, benämns STSY

42 Stratifierat urval (forts) - varför stratifiera? Varför genomförs en stratifiering av populationen? 1.Bättre säkerhet i skattningarna för hela populationen. För bästa säkerhet bör individerna vara homogena inom strata men heterogena mellan strata (svårt uppnå detta med många variabler, större potentiella vinster vid kvantitativa variabler) 2. För att vi ska kunna kontrollera att vi erhåller ett minimum av individer från vissa viktiga delpopulationer, t.ex. särredovisningsgrupper. Dessutom: om t.ex. bortfall (eller mätfel) är ett större problem i vissa grupper kan vi översampla i dessa grupper. •Dessa två anledningar till att stratifiera populationen ger ofta olika svar på hur stratifieringen ska ske •Min erfarenhet från undersökningsbranschen är att är punkten 2 vanligare. Däremot är punkten 1 vanlig för den officiella statistikproduktionen.

43 Stratifierat urval (forts) – aspekter att beakta Frågor som måste besvaras för att stratifiering ska kunna ske: •Vilken eller vilka stratifieringsvariabler ska användas. Information om dessa variabler måste finnas i urvalsramen. Exempel kön, ålder, bransch, region (stratifieringsvariablerna kan även kombineras) •Bestämning av antalet strata. Om t.ex. ålder är stratifieringsvariabel, hur bestämmer vi antalet strata samt stratumgränserna? •Allokering av stickprovet (fördelningen av antalet individer i respektive stratum.) Exempel: likformig allokering, proportionell allokering, optimal allokering. Ofta finns ingen allokeringsprincip som är den entydligt bästa för alla variabler En viktig princip att beakta är dock att antalet utvalda individer i respektive stratum bör vara ”tillräckligt” stort

44 Stratifierat urval – några beteckningar •En stratifiering av innebär att vi delar upp populationen U={1,2,…,k,...,N} i grupper, kallade strata, U h, h=1,…,H, som är icke överlappande och tillsammans heltäckande. H betecknar alltså antal strata och h är löpnummerindex. •Antal individer i ett visst stratum h betecknas N h. Populationsmängden i stratum h är alltså U h ={1,2,…,k,..., N h } •Vi drar ett stickprov s h ur respektive stratum med någon urvalsdesign, stickprovsstorleken i stratum h betecknas n h •Populationstotalen t kan därför skrivas på följande sätt om vi exemplifierar med två strata •Med H strata kan vi skriva

45 Stratifierat urval (forts) – allokering (fördelning) •Allokeringen (eller fördelningen) av stickprovet kan göras på många sätt. •Proportionell allokering: den andel som stratumet utgör i relation till populationen ska även gälla för stickprovet. Exempel •Stickprovsstorlekens relativa storlek i ett stratum är samma som i stratumets totala relativa storlek •Om OSU används som urvalsmetod i resp. strata blir stickprovet självvägt, d.v.s. alla individer i hela populationen har samma sannolikhet att bli utvalda. Designvikten blir då vilken är samma i alla strata. Vad blir d k i exemplet ovan? •Kan resultera i att ett stratum antalsmässigt blir lågt representerat.

46 Stratifierat urval (forts) – allokering (fördelning) •Likformig allokering: den total stickprovsstorleken fördelas lika (likformigt) på alla stratum. Exempel: vi har 3 strata och en total stickprovsstorlek på 300 personer. I varje stratum dras då 100 individer enligt någon urvalsmetod. •Fördelen med denna allokeringsprincip är att vi kan garantera att erhålla ett minimum av individer från respektive stratum. Denna princip är vanlig bland marknadsundersökningsföretag •Optimal allokering: innebär att vi tar relativt sett större urval i de strata som har stor variation avseende någon variabel (spridning, d.v.s. standardavvikelse) inom strata. I strata som är homogena tar vi relativt sett mindre urval. •Ofta kan olika variabler ha olika spridning vilket gör att det är svårt att hitta en enhetlig allokering vid optimal allokering. Denna princip är ovanlig bland marknadsundersökningsföretag men vanlig hos SCB

47 Punktestimation vid Stratifierat urval •Vi kan skatta populationsmedelvärdet med HT-estimatorn vid stratifierat urval enligt •Om OSU används i respektive stratum ges urvalssannolikheten av och designvikten av i respektive stratum h. •Om systematiskt urval används i respektive stratum ges designvikten av d k = a h där a h är samplingintervallet i stratum h. •Ett alternativt skrivsätt till ovanstående uttryck är att summera över olika strata. Resultaten blir dock identiska.

48 Exempel på beräkning vid Stratifierat OSU •Exempel: antag att vi har delat upp populationen på två strata med N 1 =900 och N 2 = Vi väljer n 1 =n 2 =3 individer ur respektive stratum medelst OSU. Tabellen nedan visar vissa data (undersökningsvariabeln är boendekostnad i 1000 kronor) •Skatta populationsmedelvärdet baserat på dessa data

49 Stratifierat urval (forts) – för- och nackdelar Fördelar med stratifierat urval •Om stratifiering sker effektivt kan precisionen i skattningarna på totalnivå reduceras jämfört med t.ex. OSU. •Möjlighet finns att erhålla ett minimum av individer från intressanta särredovisningsgrupper. Nackdelar med stratifierat urval •Stratifieringsvariabler och antal strata måste bestämmas •Allokering av stickprovet måste bestämmas •Vägningar kan behöva göras vilket (för oinsatta) kan komplicera

50 Variansskattning vid STOSU •Vi hinner tyvärr inte fördjupa oss särskilt mycket i variansskattningar vid stratifierat urval. •Punktskattningar kan med hjälp av datorn göras relativt enkelt genom att specificera en kolumn med designvikter, tyvärr är det (långt ifrån) lika enkelt att erhålla variansskattningar. Ofta måsta man räkna dessa för hand. •Det finns, i vissa programpaket (dock inte i MINITAB), implementerat rutiner för att beräkna variansskattningar med hänsyn taget till komplexa urvalsdesigner. •Variansestimatorn för ges vid STOSU av

51 Klusterurval och flerstegsurval Skillnaden mellan de urvalsmetoder som beskrivits ovan, där individerna i populationen utgör urvalsenheter, är att vid klusterurval så utgör grupper av individer urvalsenhet Traditionella anledningar till klusterurval 1. Det saknas bra urvalsramar som innehåller information om varje populationsindivid 2. Populationsindividerna är spridda över ett stort geografiskt område och direkt individurval skulle ge ett stickprov med individer spridda över i stort sett hela området vilket kan leda till höga kostnader för fältarbetet vid besöksintervjuer 3. Administrativa skäl, t.ex. att det är lätt att administrera en enkät till en grupp av individer (t.ex. en klass)

52 •I bilden ovan representerar cirklarna grupper (kluster) av individer. Bland dessa grupper (primära urvalsenheter) väljs ett visst antal ut med någon form av urvalsmetod. I det utvalda klustret undersöks alla element. Detta är ett klusterurval (endast ett urvalssteg) •Hur ska klustret väljas ut? Tvåstegsurval: Steg 1. Populationens individer grupperas först i grupper (kluster - primära urvalsenheter). Ett urval av primära urvalsenheter dras med någon urvalsmetod. Steg 2. Från varje utvald primär urvalsenhet dras ett urval av individer (andra stegets urval) – antingen som ett direkt urval av individer eller som ett klusterurval. I det förra fallet talar vi om tvåstegs individurval, i det senare om tvåstegs klusterurval. De urvalsenheter som används i det andra steget kallas sekundära urvalsenheter. Klusterurval och flerstegsurval

53 •Fördelar med klusterurval och flerstegsurval •Om urvalsramar över individerna i populationen saknas eller är bristfälliga kan urval av grupper (primära urvalsenheter) i vissa situationer vara det enda tänkbara. •Om datainsamlingsmetoden är personliga intervjuer leder klusterurval eller flerstegsurval till lägre kostnader än t.ex. OSU. •Är lätt att administrera när t.ex. en klass utgör ett kluster •Nackdelar med klusterurval och flerstegsurval •För samma antal undersökta individer ger klusterurval eller flerstegsurval ofta sämre säkerhet än t.ex. OSU. Detta beror på att individerna i ett kluster ofta är mer homogena än populationen i sin helhet. •Ställer större krav på metodkunskap Klusterurval och flerstegsurval (forts)

54 •En klustring av populationen innebär att vi delar upp populationen U={1,2,…,k,...,N} i delpopulationer (kluster) så att varje individ tillhör endast ett kluster •Mängden av kluster betecknas U I ={1,…,i,…,N I } d.v.s. N I betecknar antal kluster (primära urvalsenheter i första steget I ) •Antal individer i kluster U i betecknas N i •Vi drar ett urval av primära urvalsenheter s I med någon urvalsmetod. Antalet utvalda kluster betecknas n I •Om vi inom ett utvalt kluster drar ett urval av individer (tvåstegs individurval) betecknas antalet utvalda individer i den primära urvalsenheten med n i Några beteckningar

55 Klusterurval - designvikter •Antag att vi vill undersöka gymnasieelever och att finns det finns N I =250 skolklasser i en kommun •Vi låter klass vara primär urvalsenhet •Vi väljer ut n I =10 klasser med urvalsmetoden OSU •Detta betyder att en klass har urvalssannolikheten 10/250=0.04 d.v.s. 4% sannolikhet •Eftersom vi undersöker alla elever i en utvald klass kommer elevens urvalssannolikhet att vara samma som klassens, d.v.s. 4% •Designvikten blir då 1/0.04=25 (d.v.s. 250/10 ) •Generellt: Om urvalsmetoden OSU av kluster används blir designvikten för varje individ i populationen: d k =N I /n I (självvägd urvalsdesign) •Om urvalsmetoden systematiskt urval används blir designvikten samplingintervallet a (bland de primära urvalsenheterna). Exempel: bland 250 klasser väljs var a=25 :e ut (vilket ger 10 klasser)

56 Punktestimation vid klusterurval •Vi kan skatta populationsmedelvärdet med HT-estimatorn vid klusterurval enligt •Där designvikten vid t.ex. OSU av kluster (OSUK) ges av d k =N I /n I

57 Exempel på beräkning vid klusterurval •Vi vill undersöka alla heltidsanställda på småföretag (säg färre än 5 anställda) i en viss bransch. Antalet individer i populationen är okänd men vi vet att det finns N I =243 företag vid en viss tidpunkt i populationen. Vi väljer, medelst OSU, ut n I =3 företag. Vi tillfrågar de utvalda om deras månadslön •Skatta medellönen i populationen

58 Kombination av klusterurval och stratifiering av populationen •Klusterurval och stratifierat urval kan kombineras. •Vi delar upp populationen i ett visst antal strata och i respektive strata dras ett klusterurval •Exempel. Vi utgår från en population omfattande N=6218 gymnasieelever fördelade på N I =250 klasser. Antag vi väljer ut (med OSU) 2 klasser i ena stratumet och 3 i andra stratumet och erhåller •Urvalssannolikheten och designvikten i respektive stratum ges av.

59 Tvåstegs individurval •Om vi i den utvalda primära urvalsenheten drar ett sannolikhetsurval av individer som ingår i urvalsenheten har vi ett tvåstegs individurval •Detta förfarande användas t.ex. i följande situationer *Telefonundersökningar där telefonnummer är primär urvalsenhet och en individ i hushållet ombeds svara *Företagsundersökningar där företag utgör primär urvalsenhet och de anställda sekundär urvalsenhet * Inom skolundersökningar där t.ex. skola är primär urvalsenhet och klass är sekundär urvalsenhet (om ett urval görs i klassen har vi ett tredje urvalssteg, d.v.s. trestegs individurval) •Urvalssannolikheten  k ges i tvåstegs individurval av urvalssannolikheten i steg 1 multiplicerat med urvalssannolikheten i steg 2 •Exempel: vi väljer 40 av 250 klasser med OSU i första steget. I varje utvald klass väljer vi ut 10 elever (oavsett klassens storlek) i steg 2 med metoden OSU.

60 Tvåstegs individurval •Urvalssannolikheten i steg 1 är då n I /N I =40/250=0.16 •Urvalssannolikheten i steg 2 är då 10/N i =10/antal elever i klassen. •Antag t.ex. att antal elever i en viss klass är 27 st. Då blir urvalssannolikheten i steg 2 i den klassen n i /N i =10/27=0.37 •Urvalssannolikheten (totalt) för alla elever i den klassen är då •Designvikten är då d k =1/ = för alla elever i den klassen

61 Tvåstegs individurval – exempel på beräkning av designvikt •Tabellen nedan visar de nödvändiga uppgifterna för att designvikter ska kunna beräknas. •Vi antar att OSU har använts i båda stegen. Antal klasser i populationen är 250 stycken •Urvalssannolikheten fås som (10/250)*(10/antal elever i klassen) •Designvikten fås som 1/urvalssannolikheten •Notera att alla elever i samma klass erhåller samma designvikt

62 Punktestimation vid tvåstegs individurval •Vi kan skatta populationsmedelvärdet med HT- estimatorn vid klusterurval enligt •Där designvikten t.ex. vid OSU i båda stegen ges av

63 Exempel på beräkning vid tvåstegs individurval •Vi skissar på ett begränsat exempel för att kunna genomföra beräkningarna för hand. •Antag att vi har en population bestående av ett visst antal studenter på ett studentbostadsområde. Primär urvalsenhet är korridor och sekundär urvalsenhet är student i korridor. Bland de N I =129 korridorerna välj n I =5 stycken ut med OSU och en student väljs ut med OSU. En utvald student tillfrågas om han/hon tänker rösta i kårvalet. Tabellen nedan specificerar vissa nödvändiga detaljer. •Skatta proportionen som tänker rösta i populationen baserat på stickprovsdata

64 Skattningar i subpopulationer - domäner •I de flesta undersökningar finns intresse av att särredovisa resultat för olika intressanta delgrupper, domäner eller subpopulationer, i populationen. •Vi kan t.ex. vilja särredovisa män och kvinnor som två delgrupper ”kön”, årskurs 7, 8 och 9 som delgrupper av alla ”elever på högstadiet”, redovisa resultaten separat för tre ålderssegment •Ibland används frågor i enkäten (s.k. filterfråga) för att fånga in en redovisningsgrupp, t.ex. delgruppen alla som har svarat ja på en fråga i undersökningen kan betraktas som en domän vid redovisning av andra frågor •En delgrupp kan avgränsas av flera variabler, t.ex. alla kvinnor i ålder på Ekonomprogrammet vid en undersökning av alla studenter i Borlänge •Fortsättningsvis använder vi ordet domän som beteckning på delgrupp, redovisningsgrupp eller subpopulation

65 Domänskattningar •En delgrupp kan i urvalssteget vara samma sak som ett stratum. Redovisning av domänresultaten är då samma sak som att redovisa resultaten för det stratumet •Detta är dock inte nödvändigt, en redovisningsgrupp kan ”skära igenom” t.ex. stratumindelningen eller klusterindelningen. Exempel: vi stratifierar populationen gymnasieelever på skolor (7 strata) och i varje strata dras ett OSU av klasser och vi vill särredovisa resultaten på årskurs. Tabellen nedan visar fler exempel.

66 Beteckningar - domänskattningar •Vi delar upp populationen U={1,2,…,k,…,N} i delmängder (redovisningsrupper-domäner). Låt U d stå för mängden av alla individer som tillhör domän d och låt N d beteckna domänens storlek. •Exempel: om en domän utgörs av årskurs 7 i en undersökning av högstadieelever betecknar U åk7 mängden av alla elever i domänen och N åk7 antalet individer i domänen •Vi kan då skriva parametern medelvärde i en domän enligt Om domänen är årskurs 7. Vi summerar, både i täljare och nämnare, endast över de elever som ingår i domänen

67 Beräkningsmetoder för domänskattningar •För att skatta domän-medelvärdet (i populationen) på föregående sida kan vi använda HT-estimatorn, men summera över de individer som ingår i domänen i stickprovet, enligt •Den enda skillnaden mot tidigare beräkningar är att vi begränsar beräkningarna till att endast omfatta de individer i stickprovet som ingår i domänen ( s d ) •Gör vi beräkningarna i dator räcker det med att vi har en kolumn som identifierar domäntillhörighet •Notera att designvikterna d k är samma som tidigare, vi behöver alltså inte förändra de initial designvikterna när vi gör beräkningar för en domän •Denna estimator är approximativt förväntningsriktig för

68 Exempel på domänskattning •Vi utgår från exemplet vid tvåstegs individurval vi hade tidigare, men vi har även en könsindikator. •Skatta proportionen kvinnor som tänker rösta i populationen baserat på stickprovsdata

69 Övningsuppgifter i att specificera designvikter •Vi skissar nedan på några olika (komplexa) urvalsdesigner. Uppgiften består i att för respektive urvalsdesign specificera alla nödvändiga designvikter. Dessa uppgifter har jag tagit från en annan kurs i urvalsteori på Skolförvaltningen i Uppsala. Uppgifterna handlar därför mycket om skolvärlden. Fall 1 •Populationen utgörs av alla gymnasieelever N=7103 (registrerad på någon av kommunens 7 gymnasieskolor 1 december 2001). I skolorna 1-3 väljer vi från en lista över elever (sorterad efter födelsedatum) var 20:e elev. I skolorna 4-7 väljer vi med OSU ut 10 klasser från en förteckning över samtliga 112 klasser. Samtliga elever i en utvald klass tillfrågas. •Specificera nödvändiga designvikter.

70 Fall 2 •Populationen utgörs av alla gymnasielärare som arbetar 50% eller mer och har en fast anställning ( N=431 ). Vi delar in lärarna i kategorierna speciallärare ( N 1 =134 ) och övriga lärare ( N 2 =297 ). I gruppen speciallärare väljs först 3 av kommunens 7 skolor ut med OSU. På de utvalda skolorna kontaktas alla speciallärare för att delta i undersökningen. I gruppen övriga lärare väljs en skola slumpmässigt ut (OSU) och på den utvalda skolan väljs hälften av samtliga övriga lärare ut med OSU för att delta i undersökningen. •Specificera nödvändiga designvikter. Övningsuppgifter i att specificera designvikter

71 Fall 3 •Populationen utgörs av alla personer som är registrerade vid något program på kom-vux den 1 december Vi antar att populationen består av N=1023 personer. Vi delar in populationen i tre olika program samt i program 1 delas populationen in i tre ålderkategorier. Program 1 består av 446 kom-vux-elever, program 2 av 375 och program 3 av 202 elever. I program 1 delas eleverna in i tre åldersklasser där antalet i respektive åldersklass är 75, 275 och 96 personer. I respektive stratum dras ett OSU omfattande 40 personer. •Specificera nödvändiga designvikter.

72 Övningsuppgifter i att specificera designvikter Fall 4 •Populationen utgörs av alla (registrerade) elever på samtliga kommunala grundskolor i Uppsala. Totala antalet elever uppgår till N= personer. Populationen delas upp i 4 geografiska områden i Uppsala (olika kommundelar). I kommundel 1 väljs 100 elever ut medelst OSU bland de 5132 eleverna totalt. I kommundel 2 väljs 15 av de totalt sett 209 klasserna ut med OSU och i varje utvald klass undersöks alla elever. I kommundel 3 väljs 30 av de totalt sett 193 klasserna ut med OSU och de i de utvalda klasserna väljs hälften av eleverna ut med OSU. I kommundel 4 väljs 2 av de totalt sett 14 skolorna ut med systematiskt urval och på de utvalda skolorna väljs 6 av de totalt sett 24 klasserna ut med systematiskt urval (i en utvald klass undersöks alla elever) •Specificera nödvändiga designvikter.


Ladda ner ppt "Urvalsmetoder och skattningsmetodik Kursen Undersökningsmetodik och dataanalys Mats Nyfjäll Statisticon."

Liknande presentationer


Google-annonser