Ladda ner presentationen
1
Hypothesis Testing Dan Hedlin Del 1
Kapitel 8 Hypothesis Testing Dan Hedlin Del 1
2
Vad är en hypotes? En tro om populationen som formuleras i ett ”antingen-eller”-par Vi ska på basis av stickprovet välja det ena alternativet Teman i kap. 8: - konstruera test - utvärdera dessa
3
Att konstruera en testprocedur:
Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) En statistika observeras och den landar antingen i ”rejection region” eller utanför
4
CB tar upp: Likelihoodkvot-test Union-intersection-test Bayesianska test Jag fokuserar på de två första; likelihoodkvot-test klart viktigast
5
Proceduren med hypotestestning har kritiserats
Intervallskattningar gör detsamma och innehåller mer information Två utfall kan vara godtyckligt lika varandra och ändå leda till olika utfall m.a.p. på förkasta hypotes Hypotestest har sin roll i beslutssituationer
6
Exempel på beslut Är det här nya läkemedlet likvärdigt med det som redan finns på marknaden? I så fall godkänn det. Är det bättre? Är det sämre?
7
Istället för läkemedel: stör datorn intervjupersonen i datorstödda intervjuer (nej) ny blankettdesign (som man hoppas är mer inbjudande), är en session på 5 timmar bättre eller sämre än 5 sessioner på en timme för att bota blodfobi med KBT (en session är bättre)
8
LRT Nollhypotesen är parametern hör till ett begränsat parameterrum
Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ) Kvoten mindre än eller lika med 1 Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga Vi tror att det begränsade parameterummet räcker
9
Att konstruera en testprocedur:
Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) En statistika observeras och den landar antingen i ”rejection region” eller utanför
10
Två tärningar, igen Vet att ena tärningen ger sexa 9 ggr av 10, andra tärningen 1 gång av 6, men vi vet inte vilken tärning vi kastat Sexa med sh p, parameterrum {1/6, 9/10} Kastar ggr och får ca 9/10 sexor. Det finns ingen anledning att tro att p = 9/10 inte räcker som förklaring, dvs att utöka det troliga parameterrummet från p = 9/10 till tillför inget
11
Vid utfallet ca 1/6 sexor hade vi resonerat likadant fast tvärtom.
Vad skulle vi säga om vi fick sexor? Eftersom vi har så stort stickprov, , gör stora talens lag att alla utfall som kan inträffa i praktiken ligger nära ca 1/6 sexor resp. ca 9/10 sexor Vanlig situation: händer vid stora datamaterial. Signifikanttest tillför inget.
12
Till varje utfall ska det finnas ett beslut om nollhypotesen p = 9/10 ska förkastas eller ej
Två kast: n = 2 I det här enkla exemplet är det bara en fråga om val av beslut när x = 1. När x = 0 förkastar vi, när x = 2 förkastar vi inte; annars är det inget test
13
Type I Error Risk för att göra fel om vi förkastar vid x = 0 el 1? (dvs vi tror p = 1/6) dvs sh att få högst en sexa om p = 9/10 Fel av typ 1 (även false negative i en del sammanhang): sh att få 0 eller 1 sexa om p = 9/10
14
Type II Error Risk för att göra fel om vi ej förkastar vid x = 2?
dvs sh att få två sexor om p = 1/6 False positive; ofta mindre allvarligt än fel av typ 1
15
Konstruktion av test betyder att vi ska välja gräns för att förkasta
Omvänt, betyder också att vi väljer storlek på fel av typ 1 och typ 2 Type III Error: (något skämtsamt) Fel problem eller fel modell (ex sexor)
16
Vi väljer alltså minska risken för fel beslut av den ena sorten (och den andra sorten får gå upp) – en balansakt Chansen att göra ”rätt”, acceptera endast vid x = 2
17
Standardval I många situationer sätter man felet av typ 1 till 5% och chansen att göra rätt till 80% Men t.ex. 1% om fel av typ 1 är särskilt allvarligt eller om man ändå inte kommer att tro på testets utfall med en 5%-nivå T.ex. 10% om fel av typ 1 och typ 2 är mer ”jämspelta” (US Bureau of the Census har 10% som standard)
18
Nollhypotesen är en mängd av parametervärden där
Mängden av alla utfall delas upp i en rejection region, R, och dess komplement, Rc Lägg märke till att
19
Styrkefunktionen är sannolikheten att förkasta nollhypotesen som funktion av parametern:
Idealt är då det är rätt att förkasta, dvs då Och =0 då det är rätt att ej förkasta, dvs Går som sagt inte, utan det är en avvägning mellan typ 1 och typ 2. Men går bättre med stort stickprov Ofta ”5% nivå” och ”80% styrka” och stickprovet beräknas därefter
20
Size, level Nivå är den största sh:n för typ 1-fel som ett test faktiskt har CB gör skillnad på test med size och level Ett test behöver inte nödvändigtvis uppnå t.ex. 5% även om det är designat så Gäller främst union-intersection tests
21
LRT Nollhypotesen är parametern hör till ett begränsat parameterrum
Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ) Kvoten mindre än eller lika med 1 Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga Vi tror att det begränsade parameterummet räcker
22
Likelihood för utfallet x sexor vid n kast:
Test av hypotesen p = 9/10, alternativhypotes p = 1/6. Maximal likelihood över det begränsade parameterrummet
23
LRT- statistika: Vad är nämnaren, dvs maximala likelihooden?
24
x p=1/6 p=9/10 25/36 2/100 1 10/36 18/100 2 1/36 80/100
25
Konstruktion av LRT betyder i det här exemplet att vi ska välja gräns för att förkasta
I det här enkla exemplet: antingen över eller under 0.3, dvs x = 1 tas antingen till intäkt för p = 1/6 eller p = 9/10 Accept p = 9/10 Förkasta p = 9/10 1 0.3
26
Allmänt, ett LRT delar in värdeförrådet i två mängder,
Genom att som i teorem tillämpa faktoriseringsteoremet visar man att en LR-statistika baseras på en tillräcklig statistika dvs en gren av maximum-likelihood-teorin
27
Optimalitet för tester
Most powerful = störst styrka för Dvs bäst chans att förkasta då det är rätt att förkasta Likformigt starkaste test (UMP) = most powerful bland alla test med samma nivå Finns det ett UMP, väljer man vanligtvis det
28
Neyman-Pearsons lemma
I testsituationen med tärningarna, med två enkla hypoteser och LR-test, är detta det likformigt starkaste testet
29
Karlin-Rubins teorem Definition: monoton likelihoodkvot = och monoton på eller Förutsättningar: test av mot Fördelningsfamiljen av en tillräcklig statistika har monoton likelihood.
30
K-R:s teorem Då är ett test som förkastar om ett likformigt starkaste test med nivån . Nivån är sh:n att om H0 är sann.
31
Mer om p-värden Tolkning: p-värde = P(observerat utfall) + P(mer extremt utfall) Eller: minsta nivå för vilken nollhyptesen hade förkastats
32
Feltolkningar: p-värdet är sh:n att nollhypotesen är falsk
Litet p-värde betyder att experimentet lyckats Litet p-värde betyder att man kommit på något viktigt Ett p-värde= 0.03 i en studie är detsamma som p-värde= 0.03 i en annan studie
33
Publication bias Lättare att få forskning publicerad om man har små p-värden än stora (ligger tyvärr viss sanning i det) Således finns det fler förkastade noll-hypoteser i litteraturen än ej förkastade Fler cancerlarm än ”inget tyder på risk för cancer i det här fallet”
34
UI-test och IU-test LRT mycket vanligt; intersection-union resp union-intersection inte lika vanligt Exempel på intersection-union test: acceptanssampling och ekvivalenstest
35
Ex 8.2.9. Acceptance sampling
En ”batch” av produkter släpps omm ett stickprov av dem klarar två test Man tänker sig att de två egenskaperna är oberoende. Varje produkt har två variabler som vardera hör till en familj av fördelningar. Om stickprovsdata indikerar att hela ”batchen” har dåligt parametervärde, för minst en av parametrarna, underkänns batchen.
36
Nollhypotes är att endera parametervärdet är undermåligt (produkten är dålig)
Nollhypotesen är unionen av ”del-nollhypotesmängder”. Nollhypotesen förkastas om någon del förkastas. Man gör helt enkelt två test, ett för vardera parametern (ett eller två stickprov). Två test men en gemensam nivå. Kritiska området är ett snitt. Förkasta betyder här att godkänna batchen, och då ska produkten klara båda testen
37
Allmän fördel med union-intersection och intersection-union: en komplex nollhypotes kan konstrueras från enkla fall Vilken nivå man faktiskt har (dvs ”size”) kan vara svårt att utreda. Men det behövs kanske inte i praktiken: övre begränsning räcker (dvs ”level”)
38
Ett till exempel på IU-test
Ekvivalenstest (bioekvivalens). Vanligt i läkemedelsprövning Nollhypotes är att det aktuella läkemedlet är olikt befintligt läkemedel m.a.p. på någon viss variabel. Olikt= för stort eller för litet värde, dvs unionen av två områden Kritiskt område en snittmängd: Differens
39
Size and level för IUT Ett UIT eller IUT är sammansatt av del-hypoteser. Betrakta en av dem. En mängd utgör nollhypotes och kritiskt område är ”Hela” nollhypotesen är Hela kritiska området är
40
Bevis: välj godtyckligt en av delhypoteserna.
Teorem Om delhypotes har nivå och kritiskt område , då har IU-testet nivå och kritiskt område Bevis: välj godtyckligt en av delhypoteserna. R är en delmängd av Enl förutsättning Alfa är bara en övre gräns
41
”Size” kan dock vara lägre, dvs risken för typ-I-fel kan vara mindre än angiven level.
För ekvivalenstest brukar size vara något mindre än level Hur utföra ett ekvivalenstest på nivån ? Det vanligaste sättet är Westlakes 2-alfa-test. Man beräknar ett konfidensintervall:
42
Varje delhypotes är ett ensidigt test på nivån
Enl teorem blir testets nivå också Artikeln Berger and Hsu (1996) i tidskriften Statistical Science är bra om man vill på allvar förstå ekvivalenstest
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.