Dan Hedlin Statistiska institutionen, Stockholms universitet Statistical Paradises and Paradoxes in Big Data Tankar om Xiao-Li Mengs artikel Dan Hedlin Statistiska institutionen, Stockholms universitet
Ur Qvintensen 2010/2 Dan Hedlin, Department of Statistics, 2019
Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. Dan Hedlin, Department of Statistics, 2019
”För att kunna dra statistiskt säkra slutsatser till en population från ett stickprov, krävs att man har dragit ett slumpmässigt urval utifrån en aktuell ram över de som ingår i mål-populationen, och som är möjliga att nå.” (Dahmström 2011, p. 88) Dan Hedlin, Department of Statistics, 2019
Vad gäller för urval och bortfall? Ignorerbar urvals- och svarsmekanism: Inget samband mellan urvals- och svarssannolikheter och det man undersöker (Little 1982, Smith 1983) Gäller vid slumpmässigt urval och slumpmässigt bortfall men även vid vissa icke-slumpmässiga urval Dan Hedlin, Department of Statistics, 2019
Men även om det finns “samband”, kan man justera för det så är det ok Poststratifiering, “vägning” SCB använder kalibrering (Särndal och Lundström 2005) Dan Hedlin, Department of Statistics, 2019
Felet = Differens mellan skattat medelvärde och sant medelvärde Felet är en produkt av Datakvalitet Datakvantitet Problemets svårighetsgrad (Meng 2018) Dan Hedlin, Department of Statistics, 2019
Register / Big data Felet, produkt (multiplikation) av: Korrelation mellan selektion och undersökningsvariabel Roten ur ”drop-out odds”: andel ej undersökta genom andel undersökta Undersökningsvariabelns spridning (standardavvikelse) Dan Hedlin, Department of Statistics, 2019
Bias orsakad av bortfall i under-sökningar med slumpmässigt urval Relativ bias = (Väntevärde av skattning – sant värde) dividerat med sant värde Produkt: Korrelation mellan selektion och undersökningsvariabel (𝜌) Svarssannolikheternas spridning (cv) Undersökningsvariabelns spridning (cv) (Bethlehem 1988) Dan Hedlin, Department of Statistics, 2019
Vad är bäst? Slumpmässigt urval av 1% av populationen men 40% bortfall Register som täcker 80% av populationen Exempel från Meng (2018) Dan Hedlin, Department of Statistics, 2019
Beror på tre faktorer Kvoten av två drop-out odds: Urvalsundersökning (1−𝑓 𝑠 )/ 𝑓 𝑠 , 𝑓 𝑠 = 𝑛 𝑁 Register 𝑓 𝑟 Oddskvoten: urvalsundersökningens drop-out odds dividerad med registrets drop-out odds, OK Registrets korrelation, 𝜌 𝑟 Urvalsundersökningens korrelation, 𝜌 𝑠 Dan Hedlin, Department of Statistics, 2019
Villkor för att register ska vara bäst 𝜌 𝑟 ≤ 𝜌 𝑠 ⋅√𝑂𝐾 (Meng 2018) Mengs exempel: Slumpmässigt urval av 1% av populationen men 40% bortfall Register som täcker 80% av populationen Roten ur OK är ungefär 26 Ganska säkert att registret är bäst Dan Hedlin, Department of Statistics, 2019
Ett till exempel, population 7.5 miljoner Slumpmässigt urval av 0.1% av populationen men 60% bortfall, 3000 svarande Panel med 100 000 personer, alla svarar Roten ur OK är ungefär 6 Svårt att säga vad som är bäst Dan Hedlin, Department of Statistics, 2019
Designeffekt = den varians man får med vald metod Dividerad med den varians man hade fått med OSU Dan Hedlin, Department of Statistics, 2019
“Lack-of-design effect” MSE (big data) / MSE (OSU utan bortfall) = Populationsstorleken gånger ‘data defect index’ Data defect index är väntevärdet av kvadraten av korrelationen för big data Felet i skattningen blir större ju större population! ‘Return of the long-forgotten monster N’ (Meng 2018, s. 698) Dan Hedlin, Department of Statistics, 2019
“Law of large populations” Felet / roten ur variansen under OSU = Roten ur populationsstorleken gånger korrelationen för big data “The bigger the data, the surer we fool ourselves” (Meng 2018, s. 702) Dan Hedlin, Department of Statistics, 2019
Big data som täcker halva populationen Antag: Big data som täcker halva populationen Korrelationen för big data är 0.05 Kan inte bli bättre än ett slumpmässigt urval på 400 personer, utan bortfall (Meng 2018) Dan Hedlin, Department of Statistics, 2019
Men man kan ju väga data… Den gamla metoden poststratifiering fungerar generellt bra Men man kommer aldrig att reducera bortfallsfelet eller big data-felet till noll För det krävs att man har all information som förklarar selektionsmekanismen, och det har man nu inte. Dan Hedlin, Department of Statistics, 2019
“… what is big about Big Data is the number of intellectually and technologically challenging problems that keep many of us sleepless either because we are too excited or too frustrated.” (Meng 2018, s. 722) Dan Hedlin, Department of Statistics, 2019
References Bethlehem, J. (1988). Reduction of nonresponse bias through regression estimation. Journal of Official Statistics, 4(3), 51-60. Dahmström, K. (2011). Från datainsamling till rapport: att göra en statistisk undersökning. 5th ed. Lund: Studentlitteratur. Little, R. J.A. (1982). Models for Nonresponse in Sample Surveys. Journal of the American Statistical Association, 77, 237-250. Meng, X.-L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics. Smith, T.M.F. (1983). On the validity of inferences from non-random sample. Journal of the Royal Statistical Society, Series A, 146, 394‑403. Särndal, C.-E. och Lundström, S. (2012). Estimation in Surveys with Nonresponse. New York: Wiley. Dan Hedlin, Department of Statistics, 2019