Asymptotic evaluations Dan Hedlin Kapitel 10 Asymptotic evaluations Dan Hedlin
Skäl till att asymptotiska resonemang är något att ha I det här sammanhanget: n blir oändligt stort, dvs helt orealistiskt, men: De asymptotiska resultaten gäller approximativt ofta redan när n = 100 (uttryck: ”large sample” som adjektiv) Man kan se saker i de asymptotiska resultaten som man inte skulle se annars Praktiskt: framkomlig väg rent matematiskt
Ändliga populationer Man tänker sig att både N och n går mot oändligheten (samtidigt, t.ex., som n /N bevaras) Exempel: Godambe-Joshis nedre gräns för varians av en skattning av medelvärde
Kap 10, innehåll Punktskattningar Bootstrap Robusta skattningar Test Intervallskattningar
Grundläggande syn Oändlig population En följd av estimatorer för en följd av stickprovsstorlekar (som går mot ) ”merely by performing the same estimation procedure for each sample size n” Dock tillåtet med olika fördelning för varje estimator så länge det är samma familj
Konsistens En estimator är konstistent om den konvergerar i sannolikhet mot sanna värdet för alla Egentligen följd av estimatorer är konsistent Tolkning: en konsistent estimator blir bättre och bättre för ökande stickprov En linjär funktion av en estimator är konsistent om estimatorn är det (teorem 10.1.5)
VVR medför konsistens Följer av Chebychevs olikhet att: Om varians och bias går var för sig mot 0, så är estimatorn konsistent (teorem 10.1.3) Så för ”vanliga” estimatorer och ”vanliga” fördelningar medför unbiasedness konsistens
Ändliga populationer Design-baserad inferens: det som uppfattas slumpmässigt är vilket stickprov man råkat få. X-värden uppfattas ej som slumpmässiga Design-konsistens är i praktiken likadant som konsistens enligt ovan Men tvärtom: design-konsistens medför design-unbiasedness
Gränsvärden för varians Limiting variance: om då är 2 variansgränsvärdet Asymptotisk varians: om fördelningen för konvergerar mot normalfdl då är dennas varians den asymptotiska variansen Ofta lika
Effektivitet En estimator är effektiv (alt. asymptotiskt effektiv) om den når Cramér-Raos gräns, dvs kan inte bli bättre ML-skattningar är konsistenta och effektiva (men inte nödvändigtvis vvr) Svaga ”regularitetsvillkor” för detta: dock gäller inte detta om fördelningens support beror av parametern Jfr Enemy tank problem: ”supereffektiv” estimator
Relativ asymptotisk varians Kvoten av två estimatorers asymptotiska varians ARE: asymptotic relative variance Relativ varians: kvoten av två estimatorers faktiska varians
Variansberäkning ”Vanlig” beräkning utifrån fördelning Taylors teorem Appr med Cramér-Raogränsen Blandad fördelning Resamplingmetoder
Exempel på Taylors teorem V(X) är bekant Vad har g(X) för varians? De två första termerna i Taylorutvecklingen utvecklad i punkten Notera specialfallet V(kX) Även fallet då tredje termen tas med (osv)
Repetition Cramér Raos olikhet Den minsta variansen för en estimator W(X): Villkor: måste kunna kasta om integral och derivata. Kan inte göra detta om supporten beror av parametern (se Leibnitz regel)
Fisherinformationen Ett tal (eller symbol som representerar ett tal); ju större desto mer info
Om alla xi oberoende är informationen additiv, dvs infon för stickprovet är summan av delarna
Approximation med Cramér-Rao För beräkningar av variansen är det bättre att använda den observerade informationen än den förväntade Approximativ varians för en (ML-)skattning: utvärderad i punkten Notera att om parametern bara består av värdet är täljaren 1 och den approximativa variansen är 1/informationen
Appr varians för ML Fungerar bäst om estimatorn monoton i Eftersom Cramér-Rao-gränsen inte behöver uppnås kan den approximativa variansen bli för liten (dvs ett approximationsfel åt ”fel håll”)
Blandad fördelning Med sh tas X ur en fördelning, med sh 1- tas X ur annan fördelning Vad är V(X)?
Bootstrap, jackknife Flera användningsområden men här att skatta variansen Båda går ut på att dra en mängd underurval, skatta för varje underurval och sedan beräkna medelvärde e.d. av skattningarna Jackknife ”delete one”: drar n underurval där man i tur och ordning utesluter en observation.
Parametrisk bootstrap: 1. antag familj av fördelning 2 Parametrisk bootstrap: 1. antag familj av fördelning 2. skatta parametrar (t.ex. ML-skattningar) 3. generera B stickprov med n slumptal 4. vardera ur denna speciella fördelning 5. beräkna det som behöver beräknas; om ska skattas, räkna andelen stickprov som uppfyller villkoret . Det är den frekventistiska tolkningen av en sannolikhet.
Icke-parametrisk bootstrap: dra n observationer ur de befintliga, observerade observationerna med återläggning. Upprepa B sådana urval. B=200 ganska vanligt. För varje underurval får man en punktskattning Medelvärde av dem Stickprovsvarians för dvs
Approximativ fördelning Deltametoden: om då
Robusta estimatorer Robust mot vadå? (något) fel antagande om fdl Avvikande värden (outliers) Klassiskt exempel på robusthet mot avvikande värden: medelvärde och median Breakdown point: hur stor andel av stickprovet kan man ersätta med innan skattningen blir
M-estimatorn Vanligaste generella robusta estimatorn Estimating equation definierar estimator implicit Det värde som satisfierar är M-skattningen Generalisering av ML-skattning: (ger maximum)
ML och M lika omm Annars har M alltid strikt större varians än ML Variansförlusten kan ses som en försäkringspremium att betala Finns många vettiga val av För kriterier, se Hoaglin, Mosteller och Tukey; Understanding, robust and exploratory data analysis, s. 365 Biweight är ett val Identitetsfunktionen ger medelvärde
Hypotestest Hur får man ut ett p-värde ur ett likelihood-kvottest? Man har en teststatistika och en fördelning för denna Vad har LR-statistikan för fördelning? Med enkel nollhypotes så går i fördelning (vanliga regularitetsvillkor) Kallas G2-statistika
Med en nollhypotes som inte är enkel blir frihetsgraderna i chi-2-fördelningen skillnaden mellan antalet fria parametrar och antalet fria parametrar under noll-hypotesen H0 förkastas omm där är nivån (size) och är antalet frihetsgrader
Normalfdl För många andra test, approximera teststatistikans fdl med normalfdl Om så ( i sannolikhet + Slutkys teorem) Om Wn är en ML-skattning, roten 1/informationen istället för Sn
Waldtest Teststatistika där 0 är parametervärdet (eller ett parametervärde) under nollhyptesen Förkasta om (om tvåsidigt test) Kontinuitetskorrektion förbättrar (s. 105-106)
Scoretest Teststatistika där under enkel nollhypotes Beviset av Cramér-Raos olikhet ger att Teorem 10.1.12 ger Förkasta om
Teorem 10.1.12: Krav: regularitetsvillkor för ML-skattningar samt att är en kontinuerlig funktion
Ytterligare test Teststatistika av samma form som Wn kan vara en M-estimator Sn kan vara en bootstrap-skattning
Intervallskattningar Använd test och invertering av dessa Använd pivotal kvantitet