Mats Nyfjäll Statisticon

Mats Nyfjäll Statisticon
Urvalsmetoder och skattningsmetodik Kursen Undersökningsmetodik och dataanalys Mats Nyfjäll Statisticon

Innehåll Introduktion till designbaserad urvalsteori
Horvitz-Thompson-estimatorn Sannolikhetsurvalsmetoder samt skattningsmetodik för Obundet slumpmässigt urval Systematiskt urval Stratifierat urval Klusterurval och tvåstegs individurval Domänskattningar Vi antar, för alla diskussioner, att icke urvalsfel (mätfel, bortfallsfel, ramfel, bearbetningsfel) är negligerbara

En statistisk undersökning kan karaktäriseras på följande sätt, nyckelord är kursiva (bygger till stor del på Dalénius (1974)):

Tänkbar uppställning över moment som involverar statistiska/metodologiska aspekter i undersökningsprocessen. Definiera populationen Bestäm urvalsramen Framtagande av mätinstrument (mätkoncept) baserat på en problem- eller frågeställning Bestäm urvalsmetod Bestäm stickprovsstorlek Genomför datainsamlingen Analys av resultat Rapportering

Grunder – population och parametrar
Vi är intresserade av en väldefinierad avgränsad ändlig population som vi betecknar U Vi tilldelar individerna (elementen) i populationen ID-nummer (identifikationsnummer) 1,2,3,…,k,…,N Populationsmängden kan alltså skrivas U={1,2,3,…,k,…,N} Undersökningsvariabler betecknas y och yk är värdet på undersökningsvariabel y för individ k. En viktig parameter i survey sampling-sammanhang är populationstotalen (med avseende på undersökningsvariabel y) Ett annat exempel på en viktig parameter är populationsmedelvärdet

Grunder – population och parametrar
Ytterligare ett exempel är populationsvariansen och populationsstandardavvikelsen Ibland är man intresserad av kvoten mellan två totaler t.ex. kan y1 vara belopp en individ spenderar på boendekostnad och y2 kan vara individens inkomst. R är då andel av inkomst som spenderas på boende

Varför urval? Ofta kan populationen inte totalundersökas av kostnads- och tidsaspekter. Två frågor som undersökaren då ställs inför är 1 Hur ska urvalet dras på bästa sätt? 2 Hur ska de observationsdata som samlas in användas för att beräkna en så bra skattning av populationsparametern som möjligt? Dessa två frågor tillsammans kallas ibland för strategi Vi ska begränsa oss till att studera sannolikhetsurval som urvalsmetod. Sannolikhetsurval innebär att vi använder ett urvalsförfarande som är sådant att varje populationsindivid har en positiv (och känd) sannolikhet att väljas ut. Med urvalsdesign menas den metod som används för att dra ett urval av individer från populationen. Icke sannolikhetsurval kan i vissa situationer motiveras (läs på egen hand i Christensen kap7)

Estimation av populationsparametrar – generella överväganden
Urvalsteori kan angripas från olika perspektiv. Vi kommer att tillämpa ett synsätt som kallas designbaserad urvalsteori (till skillnad från modellbaserad). Detta synsätt har många fördelar och är det ”moderna” angreppssättet som läroböcker inom urvalsteori idag (oftast) tillämpar. Låt s beteckna det stickprov vi erhåller (oavsett vilken urvalsdesign vi använder) och n dess storlek. Stickprovsmängden betecknas då s={1,2,…,k,…,n} Ett viktigt begrepp då populationsparametrar ska skattas är begreppet urvalssannolikhet (ibland används benämningen inklusionssannolikhet) Urvalssannolikheten för en godtyckligt individ betecknas pk och definieras som sannolikheten att individ k kommer att ingå i det stickprov som kommer att dras Vi illustrerar med ett enkelt exempel

Antag att vi har en population som endast består av N=6 personer och att vi ska dra ett urval om n=2 personer Populationen ser ut enligt

Tabellen nedan visar alla tänkbara urval om två individer Notera att individ A förekommer i 5 av de 15 tänkbara urvalen. Om den urvalsmetod som tillämpas har den egenskapen att alla dessa 15 tänkbara urval är lika sannolika har alltså individ A urvalssannolikheten pk =5/15=1/3 . Samma urvalssannolikhet gäller även för de övriga individerna. En urvalsdesign som har den egenskapen att alla individer har samma sannolikhet att bli utvalda kallas för en självvägd urvalsdesign

Faktum är att den urvalsdesign vi exemplifierade på föregående sida är ett obundet slumpmässigt urval (OSU) Definitionen av OSU är alltså Definition Obundet slumpmässigt urval: Alla kombinationer av n individer (som väljs från N individer) ska ha samma sannolikhet att bli utvalda. Vi kommer att diskutera OSU mer i detalj senare Ytterligare en viktig aspekt (kopplad till det designbaserade perspektivet) är att undersökningsvariabeln y betraktas (åtminstone vid en viss tidpunkt) som fixa konstanter. Detta synsätt skiljer sig förmodligen från vad ni sett på tidigare kurser i statistik

Troligtvis har ni på tidigare kurser betraktat en variabel y (eller x) som en slumpvariabel med ett förväntat värde och varians E(y)=my V(y)=s2 Det slumpmässiga, utifrån designbaserad urvalsteori, är urvalsdesignen som ger upphov till en mängd olika potentiella realisationer av stickprov. För att uttrycka denna slumpmässiga komponent används en inklusionsindikatorvariabel Ik vilken definieras enligt Då inklusionsindikatorn kan anta två värden beroende på om individ k ingår i urvalet eller inte kan Ik betraktas som en slumpvariabel, närmare bestämt en Bernouilli-fördelad slumpvariabel

Vi kan därför uttrycka det förväntade värdet för Ik. Notera att Pr(ks)=Pr(Ik =1) vilket ger E(Ik) = 1Pr(Ik = 1)+0Pr(Ik = 0) = Pr(Ik =1) = pk d.v.s. förväntat värde för inklusionsindikatorvariabeln är urvalssannolikheten Detta resultat kommer att visa sig mycket användbart senare Det fullständiga namnet på pk är första ordningens inklusionssannolikhet. Det finns alltså även andra ordningens inklusionssannolikhet vilken är betydelsefull för att beräkna variansen för en estimator.

Estimation av populationsparametrar – Horvitz-Thompson-estimatorn
Vi ska nu titta på ett specifikt sätt att skatta populationsparametrar, d.v.s. en estimator Estimatorn föreslogs 1952 i en artikel av Horvitz och Thompson De resultat som presenteras nedan är helt generella och giltiga oavsett urvalsdesign. Antag att vi vill skatta populationstotalen Horvitz-Thompson estimatorn av denna parameter ges av d.v.s. vi summerar de variabelvärden som ingår i stickprovet s, men viktar upp värdena med sin urvalssannolikhet

Horvitz-Thompson estimatorn (HT-estimatorn) är en förväntningsriktig estimator (oavsett urvalsdesign) av populationstotalen. Visa detta: Ett begrepp som är intimt förknippat med urvalssannolikhet är begreppet designvikt (d.v.s. vikt kopplat till design) vilket definieras enligt Detta gör att vi kan skriva HT-estimatorn enligt

Detta är praktiskt av två skäl: dels slipper vi bråkuttrycket i summationen och dels kan designvikten tolkas Exempel: från en population omfattande N=374 individer drogs ett sannolikhetsurval omfattande n=5 individer. Nedanstående tablå visar vissa resultat Designvikten tolkas ibland (lite populärt) som hur många personer en viss individ representerar. Vi ser t.ex. att individ 7 representerar 71.4 personer med sitt värde på y Skatta populationstotalen baserat på dessa data.

Skattning av populationsmedelvärdet
Ofta(re än totalen) är parametern populationsmedelvärdet av intresse Det finns olika sätt att skatta denna parameter. Ett alternativ är att byta ut populationstotalen i täljaren mot HT-estimatorn av populationstotalen d.v.s. Är detta en bra skattning av populationsmedelvärdet? Är estimatorn förväntningsriktig? Finns det någon alternativ estimator?

Vi kan betrakta antalet individer i populationen N som en total, närmare bestämt summan av N stycken ettor Detta betyder att vi kan skatta N med HT-estimatorn enligt samt att populationsmedelvärdet kan skattas med estimatorn (kallas ibland det vägda stickprovsmedelvärdet) Skatta populationsmedelvärdet med denna estimator

Är denna estimator bättre? Vi kan konstatera att för flera urvalsdesigner (t.ex. OSU) gäller att , vilket innebär att de två estimatorerna sammanfaller. För de designer där detta inte gäller skiljer sig de båda estimatorerna åt. Då estimatorn är kvoten mellan två slumpvariabler är den endast approximativt förväntningsriktig. Dock är biasen negligerbar vid stora stickprov. Fördelen att skatta även N i nämnaren är att den estimatorn ofta har mindre varians (osäkerhet) vilket gör att ett konfidensintervall blir snävare. Är estimatorn , d.v.s. det vanliga stickprovsmedelvärdet en tänkbar estimator i ovanstående exempel?

Skattning av populationsmedelvärdet – kvalitativa variabler
Om undersökningsvariabeln är en kvalitativ variabel, t.ex. en ja-nej fråga är vi ofta intresserade av att skatta proportionen t.ex. ja-svar. Om vi kodar undersökningsvariabeln så att 1=ja och 0=1, då är alla uttryck hittills presenterade giltiga. Notera att medelvärdet av en 0-1 variabel är proportionen ettor. Låt Då är antalet personer i populationen som svarar ja på frågan Vidare är proportionen personer i populationen som svarar ja på frågan

Om en kvalitativ variabel har fler än två kategorier, t.ex. en femgradig attitydskala, eller en fråga med val bland fem olika produkter, kan proportionen för respektive kategori skattas genom att koda om kategorierna till 0-1 variabler (dummykodning). Exempel. Antag följande frågeställning: Vilken omfattning av tjänsten X skulle du kunna vara intresserad av? Genom att dummykoda variabeln kan vi skatta proportionen för respektive kategori på det sätt som tidigare beskrivits

Exempel på beräkningar. Samma population och urval som tidigare men med en kvalitativ variabel Skatta populationstotalen och populationsmedelvärdet för variabel y2

Sammanfattning En generell förväntningsriktig estimator av parametern populationstotalen är HT-estimatorn En generell förväntningsriktig estimator av parametern populationsmedelvärdet är en alternativ (ofta bättre) estimator är den approximativt förväntningsriktiga estimatorn En slutsats av detta är att en nyckelkomponent för förväntningsriktiga skattningar är designvikten

Varians för en estimator
Vi har hittills diskuterat punktskattningar men ofta finns intresse av att uttrycka osäkerheten i dessa punktskattningar Vi såg att punktskattningarna kan uttryckas mycket generellt, d.v.s. oavsett urvalsdesign. Samma sak gäller för variansskattningar som ligger till grund för konfidensintervallsberäkningar. Dock är det så att de matematiska uttrycken för variansen blir (betydligt) mer komplexa än punktskattningarna Jag tänkte därför inte visa de generella uttrycken utan kommer att diskutera variansen för några explicita urvalsdesigner senare. OM variansen (eller variansestimatorn) för en viss estimator, t.ex. (som t.ex. kan vara en total eller ett medelvärde eller egentligen vilken estimator som helst), vore känd och den betecknades skulle ett konfidensintervall för parametern q kunna konstrueras enligt under förutsättning att stickprovet är tillräckligt stort

Några vanliga urvalsdesigner - OSU
Vi definierade tidigare OSU enligt Definition Obundet slumpmässigt urval: Alla kombinationer av n individer (som väljs från N individer) ska ha samma sannolikhet att bli utvalda. Många brukar lite slarvigt säga att OSU definieras enligt: ”alla individer har lika stor sannolikhet att väljas ut”. Detta är dock inte en korrekt definition utan en konsekvens av ovanstående definition. Egenskapen att alla individer har lika stor sannolikhet att väljas ut, d.v.s. en självvägd design, gäller även t.ex. för systematiskt urval, stratifierat proportionellt urval (med OSU i strata), klusterurval med OSU av kluster

OSU - forts Vid OSU gäller att alla individer har samma sannolikhet att väljas ut, urvalssannolikheten är därför en konstant vilken ges av pk = n/N (n/N kallas för urvalsfraktionen) Designvikten vid OSU är följaktligen N/n Visa att för OSU gäller följande d.v.s. att HT-estimatorn reduceras till det vanliga stickprovsmedelvärdet Det vanliga stickprovsmedelvärdet, vilket brukar var det som presenteras i grundläggande statistikböcker, är alltså ett specialfall av HT-estimatorn

OSU - forts Exempel: ur en population med N=6336 individer drogs ett OSU omfattande n=6 individer. Undersökningsvariabeln antal biobesök senaste månaden registrerades och de sex utvalda personernas svar var 2, 0, 5, 3, 3, 1 Skatta medelvärdet av antal biobesök under den senaste månaden i populationen, dels via det vanliga stickprovsmedelvärdet dels via HT-estimatorn

OSU - forts Om urvalsdesignen är sådan att alla individer i populationen har samma sannolikhet att väljas ut (självvägd design) är designvikten konstant (lika) för alla individer i stickprovet. Vi kan då (på samma sätt som på föregående sida) ”bryta” ut designvikten i täljaren och nämnaren och förkorta bort den. Kvar blir då det ”vanliga” medelvärdet I alla andra urvalsdesigner där designvikterna inte är samma för alla individer i hela populationen bör alltså designvikterna ingå i beräkningarna. Det vanliga stickprovsmedelvärdet är i en sådan situation, d.v.s. när designvikterna varierar, inte en bra estimator (den är inte förväntningsriktig).

Variansskattningar vid OSU
Vid OSU blir variansen för medelvärdesestimatorn det ”gamla vanliga” uttrycket I Moore används följande beteckningar (sid 399) En skillnad i uttrycken är (1-n/N), den s.k. ändlighetskorrektionen, vilken ska vara med i variansuttrycket med om populationen är ändlig För att skatta denna varians måste vi skatta populationsvariansen , lämpligen med stickprovsvariansen vilket ger variansen

Variansskattningar vid OSU
Vi får vilket ger Variansen för skattas alltså enligt Under förutsättning att samplingfördelningen för kan betraktas som normalfördelad kan ett 95% konfidensintervall för bildas enligt Med 95% säkerhet täcker intervallet [0.9 , 3.7] det sanna medelvärdet i populationen

Variansskattningar vid OSU – kvalitativ variabel
På samma sätt som uttrycken för medelvärdesberäkningar var giltiga om den kvalitativa variabeln är kodad 0-1 är variansskattningen giltig I Moore (sid 587) presenteras variansskattningen för en dikotom variabel på följande sätt Visa att uttrycket ovan är identiska med Moores uttryck, så när som på ändlighetskorrektionen Antag att vi kodar om de sex personernas svar på antal biobesök så att de som har gått 0,1 eller 2 gånger kodas 0 och övriga 1 (högfrekventa biobesökare). Bilda ett 95% konfidensintervall för andelen högfrekventa biobesökare i populationen. Vad anser du om intervallets giltighet? Vilket innebär variansskattningen

Nedanstående diagram visar hur felmarginalen (halva konfidensintervallets längd) minskar när stickprovsstorleken ökar vid skattning av en populationsandel (populationen antas vara stor, P antas vara 0.5) Vi ser att de största precisionsvinsterna uppnås när stickprovsstorleken ökar från säg 50 personer till En ökning från 1000 till 2000 ger inte lika stora relativa precisionsvinster. Vid små stickprovsstorlekar (diagrammet börjar vid n=30) är osäkerheten mycket stor

Några aspekter Att uttrycka en dikotom variabel i termer av proportioner kan ha vissa pedagogiska poänger. Dock, om du genomför en undersökning låter du (troligtvis) en dator göra alla beräkningar. Det är då tryggt att veta att du inte behöver göra någon åtskillnad på hur beräkningen sker om din variabel är kvantitativ eller kvalitativ OBS!!! detta gäller endast om den kvalitativa variabeln är dikotom med värdena 0-1. (Om du kodar en dikotom variabel 1 och 2 blir resultaten fel.) I många läroböcker får man intrycket att skattningen av proportioner och medelvärden är två olika saker. Från ett survey sampling perspektiv med en ändlig population, är det inte olika saker (under förutsättning att kodningen är 0-1).

OSU - forts Fördelar med OSU
OSU är en urvalsmetod som (oftast) ger en god representation av populationen. Generaliseringar från urval dragna med OSU blir alltså möjliga (om inga andra felkällor påverkar resultaten negativt). OSU är det den urvalsmetod som många analystekniker utgår från vilket gör att de matematiska uttryck som OSU ger upphov till är lättillgängliga (i olika böcker). Nästan alla programpaket (MINITAB, SPSS, SAS, Excel) utgår i grundläget (default) från OSU. Nackdelar med OSU Det finns urvalsmetoder som är mer effektiva än OSU (större precision). OSU ger ingen garanti för att vi erhåller ett minimum av individer från intressanta redovisningsgrupper. Trots att OSU är en av de mest kända urvalsmetoderna är det inte många som vet hur ett OSU i praktiken dras. Vi går igenom ett sätt att dra ett OSU på Inlämningsuppgift 1.

Systematiskt urval - SY
Populationsstorleken N dividerat med stickprovsstorleken n kallas samplingintervallet eller urvalsintervallet. Beteckna heltalsdelen av detta med a Systematiskt urval: Bland de a första individerna i urvalsramen väljs en slumpmässig startpunkt (med lika sannolikhet). Därefter tar vi systematiskt ut var a:te individ i ramen. Exempel: om vi har N=500 individer i populationen och vill ta ett stickprov om n=50 individer har vi ett samplingintervall på a=N/n=500/50=10. Vi väljer en slumpmässig startpunkt bland de a=10 första individerna (hur?). Antag att startpunkten blev 3. Stickprovet utgörs då av individerna 3, 13, 23, 33,…, 483, 493. Detta förfarande medför att det endast finns a möjliga stickprov (jämför detta med OSU). Vi väljer ett av dessa tänkbara stickprov vilket gör att urvalssannolikheten för samtliga individer är 1/a

SY - forts Om kvoten N/n inte blir ett heltal, vilket ofta är fallet i praktiken, kan det ibland bli svårt att erhålla den önskade stickprovsstorleken. Exempel: Antag att populationen består av N=1 539 individer och vi vill dra ett stickprov som omfattar n=200 individer. Vi får då N/n=1539/200=7.69. Det finns då två alternativ: 1. Välj samplingintervallet a=7, d.v.s. välj var 7:e individ. Ger en stickprovsstorlek på 220 individer 2. Välj samplingintervallet a=8, d.v.s. välj var 8:e individ. Ger en stickprovsstorlek på 192 individer Hur ska detta hanteras? Det finns en variant av SY som gör att vi når just n=200. Blir mer komplicerat. Dra ett urval större eller mindre än det sökta Dra ett urval mindre än det sökta och ”fyll på” med individer (ej att rekommendera) Detta problem minskar dock när populationen är (mycket) stor i förhållande till stickprovsstorleken.

SY - forts Fördelar med systematiskt urval
Systematiskt urval är en enkel urvalsprincip som är lätt att implementera. Om urvalsramen är ordnad efter någon variabel som är korrelerad med undersökningsvariablerna kan systematiskt urval ge bättre säkerhet än OSU. Exempel: Antag att urvalsramen exempelvis är ordnad efter ålder och inställningen till den eller de frågeställningar som ställs är olika i olika åldrar. Systematiskt urval ger då en god spridning över alla åldersklasser och säkerheten i skattningarna kan bli bättre än vid OSU. Nackdelar med systematiskt urval Två av nackdelarna som rör OSU är även giltiga för systematiskt urval. Nämligen: andra metoder kan ge bättre precision, vissa redovisningsgrupper kan bli lågt representerade I vissa situationer är det omöjligt att erhålla den önskade stickprovsstorleken Om det föreligger systematik i urvalsramen kan systematiskt urval ge snedvridna resultat.

Punktestimation vid SY
HT-estimatorn är (naturligtvis) även giltig vid SY-design Skattningen av populationsmedelvärdet ges av Där designvikten ges av samplingintervallet a, dvs Då samplingintervallet är approximativt lika med N/n betyder det att designvikten vid SY är approximativt lika som vid OSU. Om kvoten a=N/n råkar vara ett heltal är designvikterna identiska vid SY och OSU. Om N/n är ett heltal gäller att , annars gäller att De uttryck som gäller för OSU används därför ofta även om ett systematiskt urval har dragits. Detta gäller både punktskattningar och variansskattningar. Beträffande punktskattningen torde detta förfarande inte påverka negativt, däremot vad gäller variansskattningen är det mer tveksamt om man kan ta ”OSU-formeln” ograverat. Variansen vid ett systematiskt urval beror mycket på hur urvalsramen är ordnad

Exempel på beräkningar vid SY
Antag att vi vill skatta antal personer som såg ett Robinson-avsnitt på TV. Vi antar att populationen är alla svenska medborgare över 5 år och att populationsstorleken är N= Vi vill dra ett SY-urval omfattande n=100 individer. Vi har att N/n= /100= ≈71325=a. D.v.s. a≈N/n Vi erhåller n=100 individer i vårt stickprov vilka kontaktas och tillfrågas. Antag vidare att summan av variabelvärdena för observationerna i stickprovet var d.v.s. 41 personer svarade att de såg programmet

Exempel på beräkningar vid SY
Skattningen av populationstotalen med HT-estimatorn blir då Skattning av populationsstorleken N blir Skattning av andelen som såg Robinsonavsnittet blir Notera att om samma 100 personer hade blivit utvalda med OSU hade skattningarna blivit samt

Stratifierat urval En stratifiering av en population innebär att vi delar in population i icke överlappande tillsammans heltäckande grupper kallade strata (stratum i singularis). Vi drar sedan (oberoende) urval ur respektive stratum med någon urvalsmetod. Exempel: Om urvalsmetoden OSU används i respektive stratum har vi stratifierat OSU, benämns STOSU Om urvalsmetoden systematiskt urval har används i respektive stratum har vi stratifierat systematiskt urval, benämns STSY

Stratifierat urval (forts) - varför stratifiera?
Varför genomförs en stratifiering av populationen? Bättre säkerhet i skattningarna för hela populationen. För bästa säkerhet bör individerna vara homogena inom strata men heterogena mellan strata (svårt uppnå detta med många variabler, större potentiella vinster vid kvantitativa variabler) 2. För att vi ska kunna kontrollera att vi erhåller ett minimum av individer från vissa viktiga delpopulationer, t.ex. särredovisningsgrupper. Dessutom: om t.ex. bortfall (eller mätfel) är ett större problem i vissa grupper kan vi översampla i dessa grupper. Dessa två anledningar till att stratifiera populationen ger ofta olika svar på hur stratifieringen ska ske Min erfarenhet från undersökningsbranschen är att är punkten 2 vanligare. Däremot är punkten 1 vanlig för den officiella statistikproduktionen.

Stratifierat urval (forts) – aspekter att beakta
Frågor som måste besvaras för att stratifiering ska kunna ske: Vilken eller vilka stratifieringsvariabler ska användas. Information om dessa variabler måste finnas i urvalsramen. Exempel kön, ålder, bransch, region (stratifieringsvariablerna kan även kombineras) Bestämning av antalet strata. Om t.ex. ålder är stratifieringsvariabel, hur bestämmer vi antalet strata samt stratumgränserna? Allokering av stickprovet (fördelningen av antalet individer i respektive stratum.) Exempel: likformig allokering, proportionell allokering, optimal allokering. Ofta finns ingen allokeringsprincip som är den entydligt bästa för alla variabler En viktig princip att beakta är dock att antalet utvalda individer i respektive stratum bör vara ”tillräckligt” stort

Stratifierat urval – några beteckningar
En stratifiering av innebär att vi delar upp populationen U={1,2,…,k,...,N} i grupper, kallade strata, Uh, h=1,…,H, som är icke överlappande och tillsammans heltäckande. H betecknar alltså antal strata och h är löpnummerindex. Antal individer i ett visst stratum h betecknas Nh. Populationsmängden i stratum h är alltså Uh ={1,2,…,k,..., Nh} Vi drar ett stickprov sh ur respektive stratum med någon urvalsdesign, stickprovsstorleken i stratum h betecknas nh Populationstotalen t kan därför skrivas på följande sätt om vi exemplifierar med två strata Med H strata kan vi skriva

Stratifierat urval (forts) – allokering (fördelning)
Allokeringen (eller fördelningen) av stickprovet kan göras på många sätt. Proportionell allokering: den andel som stratumet utgör i relation till populationen ska även gälla för stickprovet. Exempel Stickprovsstorlekens relativa storlek i ett stratum är samma som i stratumets totala relativa storlek Om OSU används som urvalsmetod i resp. strata blir stickprovet självvägt, d.v.s. alla individer i hela populationen har samma sannolikhet att bli utvalda. Designvikten blir då vilken är samma i alla strata. Vad blir dk i exemplet ovan? Kan resultera i att ett stratum antalsmässigt blir lågt representerat.

Stratifierat urval (forts) – allokering (fördelning)
Likformig allokering: den total stickprovsstorleken fördelas lika (likformigt) på alla stratum. Exempel: vi har 3 strata och en total stickprovsstorlek på 300 personer. I varje stratum dras då 100 individer enligt någon urvalsmetod. Fördelen med denna allokeringsprincip är att vi kan garantera att erhålla ett minimum av individer från respektive stratum. Denna princip är vanlig bland marknadsundersökningsföretag Optimal allokering: innebär att vi tar relativt sett större urval i de strata som har stor variation avseende någon variabel (spridning, d.v.s. standardavvikelse) inom strata. I strata som är homogena tar vi relativt sett mindre urval. Ofta kan olika variabler ha olika spridning vilket gör att det är svårt att hitta en enhetlig allokering vid optimal allokering. Denna princip är ovanlig bland marknadsundersökningsföretag men vanlig hos SCB

Punktestimation vid Stratifierat urval
Vi kan skatta populationsmedelvärdet med HT-estimatorn vid stratifierat urval enligt Om OSU används i respektive stratum ges urvalssannolikheten av och designvikten av i respektive stratum h. Om systematiskt urval används i respektive stratum ges designvikten av dk = ah där ah är samplingintervallet i stratum h. Ett alternativt skrivsätt till ovanstående uttryck är att summera över olika strata. Resultaten blir dock identiska.

Exempel på beräkning vid Stratifierat OSU
Exempel: antag att vi har delat upp populationen på två strata med N1=900 och N2= Vi väljer n1=n2=3 individer ur respektive stratum medelst OSU. Tabellen nedan visar vissa data (undersökningsvariabeln är boendekostnad i 1000 kronor) Skatta populationsmedelvärdet baserat på dessa data

Stratifierat urval (forts) – för- och nackdelar
Fördelar med stratifierat urval Om stratifiering sker effektivt kan precisionen i skattningarna på totalnivå reduceras jämfört med t.ex. OSU. Möjlighet finns att erhålla ett minimum av individer från intressanta särredovisningsgrupper. Nackdelar med stratifierat urval Stratifieringsvariabler och antal strata måste bestämmas Allokering av stickprovet måste bestämmas Vägningar kan behöva göras vilket (för oinsatta) kan komplicera

Variansskattning vid STOSU
Vi hinner tyvärr inte fördjupa oss särskilt mycket i variansskattningar vid stratifierat urval. Punktskattningar kan med hjälp av datorn göras relativt enkelt genom att specificera en kolumn med designvikter, tyvärr är det (långt ifrån) lika enkelt att erhålla variansskattningar. Ofta måsta man räkna dessa för hand. Det finns, i vissa programpaket (dock inte i MINITAB), implementerat rutiner för att beräkna variansskattningar med hänsyn taget till komplexa urvalsdesigner. Variansestimatorn för ges vid STOSU av

Klusterurval och flerstegsurval
Skillnaden mellan de urvalsmetoder som beskrivits ovan, där individerna i populationen utgör urvalsenheter, är att vid klusterurval så utgör grupper av individer urvalsenhet Traditionella anledningar till klusterurval 1. Det saknas bra urvalsramar som innehåller information om varje populationsindivid 2. Populationsindividerna är spridda över ett stort geografiskt område och direkt individurval skulle ge ett stickprov med individer spridda över i stort sett hela området vilket kan leda till höga kostnader för fältarbetet vid besöksintervjuer 3. Administrativa skäl, t.ex. att det är lätt att administrera en enkät till en grupp av individer (t.ex. en klass)

Klusterurval och flerstegsurval
I bilden ovan representerar cirklarna grupper (kluster) av individer. Bland dessa grupper (primära urvalsenheter) väljs ett visst antal ut med någon form av urvalsmetod. I det utvalda klustret undersöks alla element. Detta är ett klusterurval (endast ett urvalssteg) Hur ska klustret väljas ut? Tvåstegsurval: Steg 1. Populationens individer grupperas först i grupper (kluster - primära urvalsenheter). Ett urval av primära urvalsenheter dras med någon urvalsmetod. Steg 2. Från varje utvald primär urvalsenhet dras ett urval av individer (andra stegets urval) – antingen som ett direkt urval av individer eller som ett klusterurval. I det förra fallet talar vi om tvåstegs individurval, i det senare om tvåstegs klusterurval. De urvalsenheter som används i det andra steget kallas sekundära urvalsenheter.

Klusterurval och flerstegsurval (forts)
Fördelar med klusterurval och flerstegsurval Om urvalsramar över individerna i populationen saknas eller är bristfälliga kan urval av grupper (primära urvalsenheter) i vissa situationer vara det enda tänkbara. Om datainsamlingsmetoden är personliga intervjuer leder klusterurval eller flerstegsurval till lägre kostnader än t.ex. OSU. Är lätt att administrera när t.ex. en klass utgör ett kluster Nackdelar med klusterurval och flerstegsurval För samma antal undersökta individer ger klusterurval eller flerstegsurval ofta sämre säkerhet än t.ex. OSU. Detta beror på att individerna i ett kluster ofta är mer homogena än populationen i sin helhet. Ställer större krav på metodkunskap

Några beteckningar En klustring av populationen innebär att vi delar upp populationen U={1,2,…,k,...,N} i delpopulationer (kluster) så att varje individ tillhör endast ett kluster Mängden av kluster betecknas UI={1,…,i,…,NI} d.v.s. NI betecknar antal kluster (primära urvalsenheter i första steget I) Antal individer i kluster Ui betecknas Ni Vi drar ett urval av primära urvalsenheter sI med någon urvalsmetod. Antalet utvalda kluster betecknas nI Om vi inom ett utvalt kluster drar ett urval av individer (tvåstegs individurval) betecknas antalet utvalda individer i den primära urvalsenheten med ni

Klusterurval - designvikter
Antag att vi vill undersöka gymnasieelever och att finns det finns NI=250 skolklasser i en kommun Vi låter klass vara primär urvalsenhet Vi väljer ut nI=10 klasser med urvalsmetoden OSU Detta betyder att en klass har urvalssannolikheten 10/250=0.04 d.v.s. 4% sannolikhet Eftersom vi undersöker alla elever i en utvald klass kommer elevens urvalssannolikhet att vara samma som klassens, d.v.s. 4% Designvikten blir då 1/0.04=25 (d.v.s. 250/10) Generellt: Om urvalsmetoden OSU av kluster används blir designvikten för varje individ i populationen: dk=NI/nI (självvägd urvalsdesign) Om urvalsmetoden systematiskt urval används blir designvikten samplingintervallet a (bland de primära urvalsenheterna). Exempel: bland 250 klasser väljs var a=25:e ut (vilket ger 10 klasser)

Punktestimation vid klusterurval
Vi kan skatta populationsmedelvärdet med HT-estimatorn vid klusterurval enligt Där designvikten vid t.ex. OSU av kluster (OSUK) ges av dk=NI/nI

Exempel på beräkning vid klusterurval
Vi vill undersöka alla heltidsanställda på småföretag (säg färre än 5 anställda) i en viss bransch. Antalet individer i populationen är okänd men vi vet att det finns NI=243 företag vid en viss tidpunkt i populationen. Vi väljer, medelst OSU, ut nI=3 företag. Vi tillfrågar de utvalda om deras månadslön Skatta medellönen i populationen

Kombination av klusterurval och stratifiering av populationen
Klusterurval och stratifierat urval kan kombineras. Vi delar upp populationen i ett visst antal strata och i respektive strata dras ett klusterurval Exempel. Vi utgår från en population omfattande N=6218 gymnasieelever fördelade på NI=250 klasser. Antag vi väljer ut (med OSU) 2 klasser i ena stratumet och 3 i andra stratumet och erhåller Urvalssannolikheten och designvikten i respektive stratum ges av.

Tvåstegs individurval
Om vi i den utvalda primära urvalsenheten drar ett sannolikhetsurval av individer som ingår i urvalsenheten har vi ett tvåstegs individurval Detta förfarande användas t.ex. i följande situationer *Telefonundersökningar där telefonnummer är primär urvalsenhet och en individ i hushållet ombeds svara *Företagsundersökningar där företag utgör primär urvalsenhet och de anställda sekundär urvalsenhet * Inom skolundersökningar där t.ex. skola är primär urvalsenhet och klass är sekundär urvalsenhet (om ett urval görs i klassen har vi ett tredje urvalssteg, d.v.s. trestegs individurval) Urvalssannolikheten pk ges i tvåstegs individurval av urvalssannolikheten i steg 1 multiplicerat med urvalssannolikheten i steg 2 Exempel: vi väljer 40 av 250 klasser med OSU i första steget. I varje utvald klass väljer vi ut 10 elever (oavsett klassens storlek) i steg 2 med metoden OSU.

Tvåstegs individurval
Urvalssannolikheten i steg 1 är då nI/NI=40/250=0.16 Urvalssannolikheten i steg 2 är då 10/Ni=10/antal elever i klassen. Antag t.ex. att antal elever i en viss klass är 27 st. Då blir urvalssannolikheten i steg 2 i den klassen ni/Ni=10/27=0.37 Urvalssannolikheten (totalt) för alla elever i den klassen är då Designvikten är då dk=1/ = för alla elever i den klassen

Tvåstegs individurval – exempel på beräkning av designvikt
Tabellen nedan visar de nödvändiga uppgifterna för att designvikter ska kunna beräknas. Vi antar att OSU har använts i båda stegen. Antal klasser i populationen är 250 stycken Urvalssannolikheten fås som (10/250)*(10/antal elever i klassen) Designvikten fås som 1/urvalssannolikheten Notera att alla elever i samma klass erhåller samma designvikt

Punktestimation vid tvåstegs individurval
Vi kan skatta populationsmedelvärdet med HT-estimatorn vid klusterurval enligt Där designvikten t.ex. vid OSU i båda stegen ges av

Exempel på beräkning vid tvåstegs individurval
Vi skissar på ett begränsat exempel för att kunna genomföra beräkningarna för hand. Antag att vi har en population bestående av ett visst antal studenter på ett studentbostadsområde. Primär urvalsenhet är korridor och sekundär urvalsenhet är student i korridor. Bland de NI=129 korridorerna välj nI=5 stycken ut med OSU och en student väljs ut med OSU. En utvald student tillfrågas om han/hon tänker rösta i kårvalet. Tabellen nedan specificerar vissa nödvändiga detaljer. Skatta proportionen som tänker rösta i populationen baserat på stickprovsdata

Skattningar i subpopulationer - domäner
I de flesta undersökningar finns intresse av att särredovisa resultat för olika intressanta delgrupper, domäner eller subpopulationer, i populationen. Vi kan t.ex. vilja särredovisa män och kvinnor som två delgrupper ”kön”, årskurs 7, 8 och 9 som delgrupper av alla ”elever på högstadiet”, redovisa resultaten separat för tre ålderssegment Ibland används frågor i enkäten (s.k. filterfråga) för att fånga in en redovisningsgrupp, t.ex. delgruppen alla som har svarat ja på en fråga i undersökningen kan betraktas som en domän vid redovisning av andra frågor En delgrupp kan avgränsas av flera variabler, t.ex. alla kvinnor i ålder på Ekonomprogrammet vid en undersökning av alla studenter i Borlänge Fortsättningsvis använder vi ordet domän som beteckning på delgrupp, redovisningsgrupp eller subpopulation

Domänskattningar En delgrupp kan i urvalssteget vara samma sak som ett stratum. Redovisning av domänresultaten är då samma sak som att redovisa resultaten för det stratumet Detta är dock inte nödvändigt, en redovisningsgrupp kan ”skära igenom” t.ex. stratumindelningen eller klusterindelningen. Exempel: vi stratifierar populationen gymnasieelever på skolor (7 strata) och i varje strata dras ett OSU av klasser och vi vill särredovisa resultaten på årskurs. Tabellen nedan visar fler exempel.

Beteckningar - domänskattningar
Vi delar upp populationen U={1,2,…,k,…,N} i delmängder (redovisningsrupper-domäner). Låt Ud stå för mängden av alla individer som tillhör domän d och låt Nd beteckna domänens storlek. Exempel: om en domän utgörs av årskurs 7 i en undersökning av högstadieelever betecknar Uåk7 mängden av alla elever i domänen och Nåk7 antalet individer i domänen Vi kan då skriva parametern medelvärde i en domän enligt Om domänen är årskurs 7. Vi summerar, både i täljare och nämnare, endast över de elever som ingår i domänen

Beräkningsmetoder för domänskattningar
För att skatta domän-medelvärdet (i populationen) på föregående sida kan vi använda HT-estimatorn, men summera över de individer som ingår i domänen i stickprovet, enligt Den enda skillnaden mot tidigare beräkningar är att vi begränsar beräkningarna till att endast omfatta de individer i stickprovet som ingår i domänen (sd) Gör vi beräkningarna i dator räcker det med att vi har en kolumn som identifierar domäntillhörighet Notera att designvikterna dk är samma som tidigare, vi behöver alltså inte förändra de initial designvikterna när vi gör beräkningar för en domän Denna estimator är approximativt förväntningsriktig för

Exempel på domänskattning
Vi utgår från exemplet vid tvåstegs individurval vi hade tidigare, men vi har även en könsindikator. Skatta proportionen kvinnor som tänker rösta i populationen baserat på stickprovsdata

Övningsuppgifter i att specificera designvikter
Vi skissar nedan på några olika (komplexa) urvalsdesigner. Uppgiften består i att för respektive urvalsdesign specificera alla nödvändiga designvikter. Dessa uppgifter har jag tagit från en annan kurs i urvalsteori på Skolförvaltningen i Uppsala. Uppgifterna handlar därför mycket om skolvärlden. Fall 1 Populationen utgörs av alla gymnasieelever N=7103 (registrerad på någon av kommunens 7 gymnasieskolor 1 december 2001). I skolorna 1-3 väljer vi från en lista över elever (sorterad efter födelsedatum) var 20:e elev. I skolorna 4-7 väljer vi med OSU ut 10 klasser från en förteckning över samtliga 112 klasser. Samtliga elever i en utvald klass tillfrågas. Specificera nödvändiga designvikter.

Fall 2 Populationen utgörs av alla gymnasielärare som arbetar 50% eller mer och har en fast anställning (N=431). Vi delar in lärarna i kategorierna speciallärare (N1=134) och övriga lärare (N2=297). I gruppen speciallärare väljs först 3 av kommunens 7 skolor ut med OSU. På de utvalda skolorna kontaktas alla speciallärare för att delta i undersökningen. I gruppen övriga lärare väljs en skola slumpmässigt ut (OSU) och på den utvalda skolan väljs hälften av samtliga övriga lärare ut med OSU för att delta i undersökningen. Specificera nödvändiga designvikter.

Fall 3 Populationen utgörs av alla personer som är registrerade vid något program på kom-vux den 1 december Vi antar att populationen består av N=1023 personer. Vi delar in populationen i tre olika program samt i program 1 delas populationen in i tre ålderkategorier. Program 1 består av 446 kom-vux-elever, program 2 av 375 och program 3 av 202 elever. I program 1 delas eleverna in i tre åldersklasser där antalet i respektive åldersklass är 75, 275 och 96 personer. I respektive stratum dras ett OSU omfattande 40 personer. Specificera nödvändiga designvikter.

Fall 4 Populationen utgörs av alla (registrerade) elever på samtliga kommunala grundskolor i Uppsala. Totala antalet elever uppgår till N= personer. Populationen delas upp i 4 geografiska områden i Uppsala (olika kommundelar). I kommundel 1 väljs 100 elever ut medelst OSU bland de 5132 eleverna totalt. I kommundel 2 väljs 15 av de totalt sett 209 klasserna ut med OSU och i varje utvald klass undersöks alla elever. I kommundel 3 väljs 30 av de totalt sett 193 klasserna ut med OSU och de i de utvalda klasserna väljs hälften av eleverna ut med OSU. I kommundel 4 väljs 2 av de totalt sett 14 skolorna ut med systematiskt urval och på de utvalda skolorna väljs 6 av de totalt sett 24 klasserna ut med systematiskt urval (i en utvald klass undersöks alla elever) Specificera nödvändiga designvikter.

Mats Nyfjäll Statisticon

Liknande presentationer

En presentation över ämnet: "Mats Nyfjäll Statisticon"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Mats Nyfjäll Statisticon

Liknande presentationer

En presentation över ämnet: "Mats Nyfjäll Statisticon"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss