Dan Hedlin Statistiska institutionen, Stockholms universitet

Slides:



Advertisements
Liknande presentationer
Rör vi oss? Det beror på vad vi jämför oss med.
Advertisements

Uppgifter/Läxa Lös uppgifterna: 120, 121, 123, 125, 126, 128, 130, 133, 142, 144, 145.
Hud & hudsjukdomar Fredrik Hieronymus.
Behandlas under 4 kursträffar i mineralmuseet
Administration Distribution Metabolism Exkretion
Kap. 3 Derivator och Integraler
Kapitel 3 Sannolikhet och statistik
Kap. 3 Derivator och Integraler
Sol i Syd Projektdagen 2017 Region Blekinge
SP Sveriges Tekniska Forskningsinstitut
KONJUNKTURINSTITUTET
KPP053, HT2016 MATLAB, Föreläsning 2
Praktiska grejer Lärare: Erik Ramm-Schmidt Läxorna finns på Wilma
Kapitel 1 Algebra och linjära modeller manada.se.
Kursintroduktion Brukarorienterad design
Kapitel 2 Förändringshastigheter och derivator manada.se.
Behandlas under 4 kursträffar i mineralmuseet mars-april 2017
Sällsynta jordartsmetaller
GEOGRAFI.
Så tycker de äldre om äldreomsorgen 2016
Men kolla bildspelet vecka 18 först
Nordiska Lärarorganisationers Samråd
Arbetsgrupp ”Hat och hot mot förtroendevalda”
Är en radikal omställning till hållbar konsumtion möjlig och hur påverkar det våra möjligheter till välbefinnande? Jörgen Larsson Assistant professor in.
X Avrundning och överslagsräkning
Välkommen till.
ULA Kompetenscenter - en del av TPY
VISBY IBKs FÖRENINGSTRÄD
Styrelsen i stallet vecka 20
Framgångsfaktorer för en global projektverksamhet
Gotlands energieffektiviseringsnätverk
Medelhavsbuffé 11/ Bildkavalkad.
Nya regler om energi i BBR
Sannolikhet och statistik
Lagen om Energikartläggning i stora företag
Växtekologisk orienteringskurs
Tularemi.
Information till primärvården Herman Nilsson-Ehle Catharina Lewerin
Inför avtalsrörelsen 2016 Lars Calmfors
Lagen om Energikartläggning i stora företag
KPP053, HT2016 MATLAB, Föreläsning 3
Lars Calmfors Föreläsning 2 för Riksrevisionen 25/2-2016
Fosfor från Östersjöns djupbottnar är problemet
Täthet hos flänsförband mellan stora polyetenrör och ventiler
Arbetsbeskrivning Sportkommittén
Dagens ämnen Matriser Räkneoperationer och räknelagar
Mellankrigstiden
Ledarutveckling över gränserna
Regiongemensam enkät i förskola och familjedaghem 2016
Hur får vi fler att söka till Teknikcollege ?
det är den här processen
Uppföljning av år 2016 HFS-nätverket
BILDSPEL ABISKO, ev. YOUTUBE KLIPP
Visit Karlskoga Degerfors
Vårdprevention - en introduktion för medarbetare på sjukhus
Trygg, säker och samordnad vård- och omsorgsprocess
Föräldraenkät 2017 Förskola
BYGDSAM Anundsjö Grundsunda BLT Nätra.
Nyheter i tredje upplagan av Handbok Riskanalys och Händelseanalys
Så här säljer du med SMS.
Finansiell samordning
Arbetsmarknadsutsikterna hösten 2016
Dagläger MTB i Högbobruk
Sportlovsläger 9-12 feb Årshjulet med läger på skolloven börjar med ett dagläger för våra tävlingsgymnaster Vi hälsar alla gymnasterna i S- och R-ben samt.
Medlemsinfo Tenhults IF
Välkommen till vårt Öppet Hus, SeniorNet Huddinge
Fortum: Lars Modigh Agneta Molinder Synovate Temo: Gun Pettersson
Attraktiv Hemtjänst Introduktion i att utvärdera hemtjänst
Presentation av verksamhetsplan
20% rabatt (På ordinarie priser)
Presentationens avskrift:

Dan Hedlin Statistiska institutionen, Stockholms universitet Statistical Paradises and Paradoxes in Big Data Tankar om Xiao-Li Mengs artikel Dan Hedlin Statistiska institutionen, Stockholms universitet

Ur Qvintensen 2010/2 Dan Hedlin, Department of Statistics, 2019

Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. Dan Hedlin, Department of Statistics, 2019

”För att kunna dra statistiskt säkra slutsatser till en population från ett stickprov, krävs att man har dragit ett slumpmässigt urval utifrån en aktuell ram över de som ingår i mål-populationen, och som är möjliga att nå.” (Dahmström 2011, p. 88) Dan Hedlin, Department of Statistics, 2019

Vad gäller för urval och bortfall? Ignorerbar urvals- och svarsmekanism: Inget samband mellan urvals- och svarssannolikheter och det man undersöker (Little 1982, Smith 1983) Gäller vid slumpmässigt urval och slumpmässigt bortfall men även vid vissa icke-slumpmässiga urval Dan Hedlin, Department of Statistics, 2019

Men även om det finns “samband”, kan man justera för det så är det ok Poststratifiering, “vägning” SCB använder kalibrering (Särndal och Lundström 2005) Dan Hedlin, Department of Statistics, 2019

Felet = Differens mellan skattat medelvärde och sant medelvärde Felet är en produkt av Datakvalitet Datakvantitet Problemets svårighetsgrad (Meng 2018) Dan Hedlin, Department of Statistics, 2019

Register / Big data Felet, produkt (multiplikation) av: Korrelation mellan selektion och undersökningsvariabel Roten ur ”drop-out odds”: andel ej undersökta genom andel undersökta Undersökningsvariabelns spridning (standardavvikelse) Dan Hedlin, Department of Statistics, 2019

Bias orsakad av bortfall i under-sökningar med slumpmässigt urval Relativ bias = (Väntevärde av skattning – sant värde) dividerat med sant värde Produkt: Korrelation mellan selektion och undersökningsvariabel (𝜌) Svarssannolikheternas spridning (cv) Undersökningsvariabelns spridning (cv) (Bethlehem 1988) Dan Hedlin, Department of Statistics, 2019

Vad är bäst? Slumpmässigt urval av 1% av populationen men 40% bortfall Register som täcker 80% av populationen Exempel från Meng (2018) Dan Hedlin, Department of Statistics, 2019

Beror på tre faktorer Kvoten av två drop-out odds: Urvalsundersökning (1−𝑓 𝑠 )/ 𝑓 𝑠 , 𝑓 𝑠 = 𝑛 𝑁 Register 𝑓 𝑟 Oddskvoten: urvalsundersökningens drop-out odds dividerad med registrets drop-out odds, OK Registrets korrelation, 𝜌 𝑟 Urvalsundersökningens korrelation, 𝜌 𝑠 Dan Hedlin, Department of Statistics, 2019

Villkor för att register ska vara bäst 𝜌 𝑟 ≤ 𝜌 𝑠 ⋅√𝑂𝐾 (Meng 2018) Mengs exempel: Slumpmässigt urval av 1% av populationen men 40% bortfall Register som täcker 80% av populationen Roten ur OK är ungefär 26 Ganska säkert att registret är bäst Dan Hedlin, Department of Statistics, 2019

Ett till exempel, population 7.5 miljoner Slumpmässigt urval av 0.1% av populationen men 60% bortfall, 3000 svarande Panel med 100 000 personer, alla svarar Roten ur OK är ungefär 6 Svårt att säga vad som är bäst Dan Hedlin, Department of Statistics, 2019

Designeffekt = den varians man får med vald metod Dividerad med den varians man hade fått med OSU Dan Hedlin, Department of Statistics, 2019

“Lack-of-design effect” MSE (big data) / MSE (OSU utan bortfall) = Populationsstorleken gånger ‘data defect index’ Data defect index är väntevärdet av kvadraten av korrelationen för big data Felet i skattningen blir större ju större population! ‘Return of the long-forgotten monster N’ (Meng 2018, s. 698) Dan Hedlin, Department of Statistics, 2019

“Law of large populations” Felet / roten ur variansen under OSU = Roten ur populationsstorleken gånger korrelationen för big data “The bigger the data, the surer we fool ourselves” (Meng 2018, s. 702) Dan Hedlin, Department of Statistics, 2019

Big data som täcker halva populationen Antag: Big data som täcker halva populationen Korrelationen för big data är 0.05 Kan inte bli bättre än ett slumpmässigt urval på 400 personer, utan bortfall (Meng 2018) Dan Hedlin, Department of Statistics, 2019

Men man kan ju väga data… Den gamla metoden poststratifiering fungerar generellt bra Men man kommer aldrig att reducera bortfallsfelet eller big data-felet till noll För det krävs att man har all information som förklarar selektionsmekanismen, och det har man nu inte. Dan Hedlin, Department of Statistics, 2019

“… what is big about Big Data is the number of intellectually and technologically challenging problems that keep many of us sleepless either because we are too excited or too frustrated.” (Meng 2018, s. 722) Dan Hedlin, Department of Statistics, 2019

References Bethlehem, J. (1988). Reduction of nonresponse bias through regression estimation. Journal of Official Statistics, 4(3), 51-60. Dahmström, K. (2011). Från datainsamling till rapport: att göra en statistisk undersökning. 5th ed. Lund: Studentlitteratur. Little, R. J.A. (1982). Models for Nonresponse in Sample Surveys. Journal of the American Statistical Association, 77, 237-250. Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. Smith, T.M.F. (1983). On the validity of inferences from non-random sample. Journal of the Royal Statistical Society, Series A, 146, 394‑403. Särndal, C.-E. och Lundström, S. (2012). Estimation in Surveys with Nonresponse. New York: Wiley. Dan Hedlin, Department of Statistics, 2019