Hypothesis Testing Dan Hedlin Del 1 Kapitel 8 Hypothesis Testing Dan Hedlin Del 1
Vad är en hypotes? En tro om populationen som formuleras i ett ”antingen-eller”-par Vi ska på basis av stickprovet välja det ena alternativet Teman i kap. 8: - konstruera test - utvärdera dessa
Att konstruera en testprocedur: Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) En statistika observeras och den landar antingen i ”rejection region” eller utanför
CB tar upp: Likelihoodkvot-test Union-intersection-test Bayesianska test Jag fokuserar på de två första; likelihoodkvot-test klart viktigast
Proceduren med hypotestestning har kritiserats Intervallskattningar gör detsamma och innehåller mer information Två utfall kan vara godtyckligt lika varandra och ändå leda till olika utfall m.a.p. på förkasta hypotes Hypotestest har sin roll i beslutssituationer
Exempel på beslut Är det här nya läkemedlet likvärdigt med det som redan finns på marknaden? I så fall godkänn det. Är det bättre? Är det sämre?
Istället för läkemedel: stör datorn intervjupersonen i datorstödda intervjuer (nej) ny blankettdesign (som man hoppas är mer inbjudande), är en session på 5 timmar bättre eller sämre än 5 sessioner på en timme för att bota blodfobi med KBT (en session är bättre)
LRT Nollhypotesen är parametern hör till ett begränsat parameterrum Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ) Kvoten mindre än eller lika med 1 Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga Vi tror att det begränsade parameterummet räcker
Att konstruera en testprocedur: Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) En statistika observeras och den landar antingen i ”rejection region” eller utanför
Två tärningar, igen Vet att ena tärningen ger sexa 9 ggr av 10, andra tärningen 1 gång av 6, men vi vet inte vilken tärning vi kastat Sexa med sh p, parameterrum {1/6, 9/10} Kastar 100 000 ggr och får ca 9/10 sexor. Det finns ingen anledning att tro att p = 9/10 inte räcker som förklaring, dvs att utöka det troliga parameterrummet från p = 9/10 till tillför inget
Vid utfallet ca 1/6 sexor hade vi resonerat likadant fast tvärtom. Vad skulle vi säga om vi fick 45 000 sexor? Eftersom vi har så stort stickprov, 100 000, gör stora talens lag att alla utfall som kan inträffa i praktiken ligger nära ca 1/6 sexor resp. ca 9/10 sexor Vanlig situation: händer vid stora datamaterial. Signifikanttest tillför inget.
Till varje utfall ska det finnas ett beslut om nollhypotesen p = 9/10 ska förkastas eller ej Två kast: n = 2 I det här enkla exemplet är det bara en fråga om val av beslut när x = 1. När x = 0 förkastar vi, när x = 2 förkastar vi inte; annars är det inget test
Type I Error Risk för att göra fel om vi förkastar vid x = 0 el 1? (dvs vi tror p = 1/6) dvs sh att få högst en sexa om p = 9/10 Fel av typ 1 (även false negative i en del sammanhang): sh att få 0 eller 1 sexa om p = 9/10
Type II Error Risk för att göra fel om vi ej förkastar vid x = 2? dvs sh att få två sexor om p = 1/6 False positive; ofta mindre allvarligt än fel av typ 1
Konstruktion av test betyder att vi ska välja gräns för att förkasta Omvänt, betyder också att vi väljer storlek på fel av typ 1 och typ 2 Type III Error: (något skämtsamt) Fel problem eller fel modell (ex. 45 000 sexor)
Vi väljer alltså minska risken för fel beslut av den ena sorten (och den andra sorten får gå upp) – en balansakt Chansen att göra ”rätt”, acceptera endast vid x = 2
Standardval I många situationer sätter man felet av typ 1 till 5% och chansen att göra rätt till 80% Men t.ex. 1% om fel av typ 1 är särskilt allvarligt eller om man ändå inte kommer att tro på testets utfall med en 5%-nivå T.ex. 10% om fel av typ 1 och typ 2 är mer ”jämspelta” (US Bureau of the Census har 10% som standard)
Nollhypotesen är en mängd av parametervärden där Mängden av alla utfall delas upp i en rejection region, R, och dess komplement, Rc Lägg märke till att
Styrkefunktionen är sannolikheten att förkasta nollhypotesen som funktion av parametern: Idealt är då det är rätt att förkasta, dvs då Och =0 då det är rätt att ej förkasta, dvs Går som sagt inte, utan det är en avvägning mellan typ 1 och typ 2. Men går bättre med stort stickprov Ofta ”5% nivå” och ”80% styrka” och stickprovet beräknas därefter
Size, level Nivå är den största sh:n för typ 1-fel som ett test faktiskt har CB gör skillnad på test med size och level Ett test behöver inte nödvändigtvis uppnå t.ex. 5% även om det är designat så Gäller främst union-intersection tests
LRT Nollhypotesen är parametern hör till ett begränsat parameterrum Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ) Kvoten mindre än eller lika med 1 Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga Vi tror att det begränsade parameterummet räcker
Likelihood för utfallet x sexor vid n kast: Test av hypotesen p = 9/10, alternativhypotes p = 1/6. Maximal likelihood över det begränsade parameterrummet
LRT- statistika: Vad är nämnaren, dvs maximala likelihooden?
x p=1/6 p=9/10 25/36 2/100 1 10/36 18/100 2 1/36 80/100
Konstruktion av LRT betyder i det här exemplet att vi ska välja gräns för att förkasta I det här enkla exemplet: antingen över eller under 0.3, dvs x = 1 tas antingen till intäkt för p = 1/6 eller p = 9/10 Accept p = 9/10 Förkasta p = 9/10 1 0.3
Allmänt, ett LRT delar in värdeförrådet i två mängder, Genom att som i teorem 8.2.4 tillämpa faktoriseringsteoremet visar man att en LR-statistika baseras på en tillräcklig statistika dvs en gren av maximum-likelihood-teorin
Optimalitet för tester Most powerful = störst styrka för Dvs bäst chans att förkasta då det är rätt att förkasta Likformigt starkaste test (UMP) = most powerful bland alla test med samma nivå Finns det ett UMP, väljer man vanligtvis det
Neyman-Pearsons lemma I testsituationen med tärningarna, med två enkla hypoteser och LR-test, är detta det likformigt starkaste testet
Karlin-Rubins teorem Definition: monoton likelihoodkvot = och monoton på eller Förutsättningar: test av mot . Fördelningsfamiljen av en tillräcklig statistika har monoton likelihood.
K-R:s teorem Då är ett test som förkastar om ett likformigt starkaste test med nivån . Nivån är sh:n att om H0 är sann.
Mer om p-värden Tolkning: p-värde = P(observerat utfall) + P(mer extremt utfall) Eller: minsta nivå för vilken nollhyptesen hade förkastats
Feltolkningar: p-värdet är sh:n att nollhypotesen är falsk Litet p-värde betyder att experimentet lyckats Litet p-värde betyder att man kommit på något viktigt Ett p-värde= 0.03 i en studie är detsamma som p-värde= 0.03 i en annan studie
Publication bias Lättare att få forskning publicerad om man har små p-värden än stora (ligger tyvärr viss sanning i det) Således finns det fler förkastade noll-hypoteser i litteraturen än ej förkastade Fler cancerlarm än ”inget tyder på risk för cancer i det här fallet”
UI-test och IU-test LRT mycket vanligt; intersection-union resp union-intersection inte lika vanligt Exempel på intersection-union test: acceptanssampling och ekvivalenstest
Ex 8.2.9. Acceptance sampling En ”batch” av produkter släpps omm ett stickprov av dem klarar två test Man tänker sig att de två egenskaperna är oberoende. Varje produkt har två variabler som vardera hör till en familj av fördelningar. Om stickprovsdata indikerar att hela ”batchen” har dåligt parametervärde, för minst en av parametrarna, underkänns batchen.
Nollhypotes är att endera parametervärdet är undermåligt (produkten är dålig) Nollhypotesen är unionen av ”del-nollhypotesmängder”. Nollhypotesen förkastas om någon del förkastas. Man gör helt enkelt två test, ett för vardera parametern (ett eller två stickprov). Två test men en gemensam nivå. Kritiska området är ett snitt. Förkasta betyder här att godkänna batchen, och då ska produkten klara båda testen
Allmän fördel med union-intersection och intersection-union: en komplex nollhypotes kan konstrueras från enkla fall Vilken nivå man faktiskt har (dvs ”size”) kan vara svårt att utreda. Men det behövs kanske inte i praktiken: övre begränsning räcker (dvs ”level”)
Ett till exempel på IU-test Ekvivalenstest (bioekvivalens). Vanligt i läkemedelsprövning Nollhypotes är att det aktuella läkemedlet är olikt befintligt läkemedel m.a.p. på någon viss variabel. Olikt= för stort eller för litet värde, dvs unionen av två områden Kritiskt område en snittmängd: Differens
Size and level för IUT Ett UIT eller IUT är sammansatt av del-hypoteser. Betrakta en av dem. En mängd utgör nollhypotes och kritiskt område är ”Hela” nollhypotesen är Hela kritiska området är
Bevis: välj godtyckligt en av delhypoteserna. Teorem 8.3.23. Om delhypotes har nivå och kritiskt område , då har IU-testet nivå och kritiskt område Bevis: välj godtyckligt en av delhypoteserna. R är en delmängd av Enl förutsättning Alfa är bara en övre gräns
”Size” kan dock vara lägre, dvs risken för typ-I-fel kan vara mindre än angiven level. För ekvivalenstest brukar size vara något mindre än level Hur utföra ett ekvivalenstest på nivån ? Det vanligaste sättet är Westlakes 2-alfa-test. Man beräknar ett konfidensintervall:
Varje delhypotes är ett ensidigt test på nivån Enl teorem 8.3.23 blir testets nivå också Artikeln Berger and Hsu (1996) i tidskriften Statistical Science är bra om man vill på allvar förstå ekvivalenstest