Hypothesis Testing Dan Hedlin Del 1

Slides:



Advertisements
Liknande presentationer
Att förstå anonymiteten (översättning från
Advertisements

Inferens om en population Sid
Talföljder formler och summor
Här ser ni några sidor som hjälper er att lösa uppgifterna:
Innehåll, huvudpresentation 4. Rangordning av ordningsstörningar (fråga 1) 5. Problem med nedskräpning (fråga 1a) 6. Problem med skadegörelse (fråga 1b)
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Point Estimation Dan Hedlin
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Tillämpning av bolagsstyrningskoden vid årsstämmor 2005 och 2006.
Leif Håkansson’s Square Dancer Rotation
Projektföljeforskning
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
Kundundersökning mars 2010 Operatör: Västtrafik Trafikslag: Tåg Sträcka: Göteborg - Nässjö.
LANDSTINGSDIREKTÖRENS STAB Regional utveckling BILD 1 Resultat av enkät till landstingspolitiker
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Skånedatabasen & Region Skånes tillgänglighetsmodell
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
Asymptotic evaluations Dan Hedlin
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
Gymnasieskolan år 2 Brott och utsatthet för brott 2008 BILD 1 Elever som snattat de senaste 12 månaderna.
Grundskolan år 9 Brott och utsatthet för brott 2008 BILD 1 Elever som snattat de senaste 12 månaderna.
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
(2) Avvikelse från std. kostnad (5) Andel inv 65+ med insats (4) Andel 80+ i befolkningen (1) Kronor/ invånare (65+) (3) Kronor/ brukare (6) Ytterfall.
Tillämpad statistik Naprapathögskolan
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Brukarundersökning socialpsykiatri Kön 1. Man16 (44%) 2. Kvinna20 (56%)
TÄNK PÅ ETT HELTAL MELLAN 1-50
Skattningens medelfel
1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
Best pictures on the internet 2007 Awards 1http:// Är vänsteralliansen trovärdig i Norrköping.
Enkätresultat för Fritidshem Elever 2014 Skola:Fritidselever, Gillberga skola.
ALF- och Fakultetsmedel Lunds Universitet 2007 Yvonne Giwercman, Pirkko Härkönen, Helena Jernström, Ewa Roos, Gunilla Westergren-Thorsson PROJEKT AKKA.
Novus Unga om vården Vårdförbundet Lina Lidell 1718.
Best pictures on the internet 2007 Awards 1http:// (s), (v), och (mp) i Norrköping, gillar inte att vi använder grundlagarna.
Förelasning 6 Hypotesprövning
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Egenskaper för punktskattning
Smittspårarutbildning
Praktisk epidemiologi för allmänläkare
1 Kapitel 9 Interval Estimation Dan Hedlin. 2 Konfidensintervall vanligast för ”location problems”, dvs k.i. för medelvärde o.d. K.i. för t.ex. standardavvikelse.
Simulering Introduktion Exempel: Antag att någon kastar tärning
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Linjär regression föreläsning 9
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Normalfördelningen och centrala gränsvärdessatsen
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
1 Jan Lundström OV’s Hemsida Utbildning Ledare. 2 Jan Lundström OV’s Hemsida Standard Lagrum.
732G22 Grunder i statistisk metodik
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Presentationens avskrift:

Hypothesis Testing Dan Hedlin Del 1 Kapitel 8 Hypothesis Testing Dan Hedlin Del 1

Vad är en hypotes? En tro om populationen som formuleras i ett ”antingen-eller”-par Vi ska på basis av stickprovet välja det ena alternativet Teman i kap. 8: - konstruera test - utvärdera dessa

Att konstruera en testprocedur: Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) En statistika observeras och den landar antingen i ”rejection region” eller utanför

CB tar upp: Likelihoodkvot-test Union-intersection-test Bayesianska test Jag fokuserar på de två första; likelihoodkvot-test klart viktigast

Proceduren med hypotestestning har kritiserats Intervallskattningar gör detsamma och innehåller mer information Två utfall kan vara godtyckligt lika varandra och ändå leda till olika utfall m.a.p. på förkasta hypotes Hypotestest har sin roll i beslutssituationer

Exempel på beslut Är det här nya läkemedlet likvärdigt med det som redan finns på marknaden? I så fall godkänn det. Är det bättre? Är det sämre?

Istället för läkemedel: stör datorn intervjupersonen i datorstödda intervjuer (nej) ny blankettdesign (som man hoppas är mer inbjudande), är en session på 5 timmar bättre eller sämre än 5 sessioner på en timme för att bota blodfobi med KBT (en session är bättre)

LRT Nollhypotesen är parametern hör till ett begränsat parameterrum Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ) Kvoten mindre än eller lika med 1 Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga Vi tror att det begränsade parameterummet räcker

Att konstruera en testprocedur: Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) En statistika observeras och den landar antingen i ”rejection region” eller utanför

Två tärningar, igen Vet att ena tärningen ger sexa 9 ggr av 10, andra tärningen 1 gång av 6, men vi vet inte vilken tärning vi kastat Sexa med sh p, parameterrum {1/6, 9/10} Kastar 100 000 ggr och får ca 9/10 sexor. Det finns ingen anledning att tro att p = 9/10 inte räcker som förklaring, dvs att utöka det troliga parameterrummet från p = 9/10 till tillför inget

Vid utfallet ca 1/6 sexor hade vi resonerat likadant fast tvärtom. Vad skulle vi säga om vi fick 45 000 sexor? Eftersom vi har så stort stickprov, 100 000, gör stora talens lag att alla utfall som kan inträffa i praktiken ligger nära ca 1/6 sexor resp. ca 9/10 sexor Vanlig situation: händer vid stora datamaterial. Signifikanttest tillför inget.

Till varje utfall ska det finnas ett beslut om nollhypotesen p = 9/10 ska förkastas eller ej Två kast: n = 2 I det här enkla exemplet är det bara en fråga om val av beslut när x = 1. När x = 0 förkastar vi, när x = 2 förkastar vi inte; annars är det inget test

Type I Error Risk för att göra fel om vi förkastar vid x = 0 el 1? (dvs vi tror p = 1/6) dvs sh att få högst en sexa om p = 9/10 Fel av typ 1 (även false negative i en del sammanhang): sh att få 0 eller 1 sexa om p = 9/10

Type II Error Risk för att göra fel om vi ej förkastar vid x = 2? dvs sh att få två sexor om p = 1/6 False positive; ofta mindre allvarligt än fel av typ 1

Konstruktion av test betyder att vi ska välja gräns för att förkasta Omvänt, betyder också att vi väljer storlek på fel av typ 1 och typ 2 Type III Error: (något skämtsamt) Fel problem eller fel modell (ex. 45 000 sexor)

Vi väljer alltså minska risken för fel beslut av den ena sorten (och den andra sorten får gå upp) – en balansakt Chansen att göra ”rätt”, acceptera endast vid x = 2

Standardval I många situationer sätter man felet av typ 1 till 5% och chansen att göra rätt till 80% Men t.ex. 1% om fel av typ 1 är särskilt allvarligt eller om man ändå inte kommer att tro på testets utfall med en 5%-nivå T.ex. 10% om fel av typ 1 och typ 2 är mer ”jämspelta” (US Bureau of the Census har 10% som standard)

Nollhypotesen är en mängd av parametervärden där Mängden av alla utfall delas upp i en rejection region, R, och dess komplement, Rc Lägg märke till att

Styrkefunktionen är sannolikheten att förkasta nollhypotesen som funktion av parametern: Idealt är då det är rätt att förkasta, dvs då Och =0 då det är rätt att ej förkasta, dvs Går som sagt inte, utan det är en avvägning mellan typ 1 och typ 2. Men går bättre med stort stickprov Ofta ”5% nivå” och ”80% styrka” och stickprovet beräknas därefter

Size, level Nivå är den största sh:n för typ 1-fel som ett test faktiskt har CB gör skillnad på test med size  och level  Ett test behöver inte nödvändigtvis uppnå t.ex. 5% även om det är designat så Gäller främst union-intersection tests

LRT Nollhypotesen är parametern hör till ett begränsat parameterrum Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ) Kvoten mindre än eller lika med 1 Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga Vi tror att det begränsade parameterummet räcker

Likelihood för utfallet x sexor vid n kast: Test av hypotesen p = 9/10, alternativhypotes p = 1/6. Maximal likelihood över det begränsade parameterrummet

LRT- statistika: Vad är nämnaren, dvs maximala likelihooden?

x p=1/6 p=9/10 25/36 2/100 1 10/36 18/100 2 1/36 80/100

Konstruktion av LRT betyder i det här exemplet att vi ska välja gräns för att förkasta I det här enkla exemplet: antingen över eller under 0.3, dvs x = 1 tas antingen till intäkt för p = 1/6 eller p = 9/10 Accept p = 9/10 Förkasta p = 9/10 1 0.3

Allmänt, ett LRT delar in värdeförrådet i två mängder, Genom att som i teorem 8.2.4 tillämpa faktoriseringsteoremet visar man att en LR-statistika baseras på en tillräcklig statistika dvs en gren av maximum-likelihood-teorin

Optimalitet för tester Most powerful = störst styrka för Dvs bäst chans att förkasta då det är rätt att förkasta Likformigt starkaste test (UMP) = most powerful bland alla test med samma nivå Finns det ett UMP, väljer man vanligtvis det

Neyman-Pearsons lemma I testsituationen med tärningarna, med två enkla hypoteser och LR-test, är detta det likformigt starkaste testet

Karlin-Rubins teorem Definition: monoton likelihoodkvot = och monoton på eller Förutsättningar: test av mot . Fördelningsfamiljen av en tillräcklig statistika har monoton likelihood.

K-R:s teorem Då är ett test som förkastar om ett likformigt starkaste test med nivån . Nivån är sh:n att om H0 är sann.

Mer om p-värden Tolkning: p-värde = P(observerat utfall) + P(mer extremt utfall) Eller: minsta nivå för vilken nollhyptesen hade förkastats

Feltolkningar: p-värdet är sh:n att nollhypotesen är falsk Litet p-värde betyder att experimentet lyckats Litet p-värde betyder att man kommit på något viktigt Ett p-värde= 0.03 i en studie är detsamma som p-värde= 0.03 i en annan studie

Publication bias Lättare att få forskning publicerad om man har små p-värden än stora (ligger tyvärr viss sanning i det) Således finns det fler förkastade noll-hypoteser i litteraturen än ej förkastade Fler cancerlarm än ”inget tyder på risk för cancer i det här fallet”

UI-test och IU-test LRT mycket vanligt; intersection-union resp union-intersection inte lika vanligt Exempel på intersection-union test: acceptanssampling och ekvivalenstest

Ex 8.2.9. Acceptance sampling En ”batch” av produkter släpps omm ett stickprov av dem klarar två test Man tänker sig att de två egenskaperna är oberoende. Varje produkt har två variabler som vardera hör till en familj av fördelningar. Om stickprovsdata indikerar att hela ”batchen” har dåligt parametervärde, för minst en av parametrarna, underkänns batchen.

Nollhypotes är att endera parametervärdet är undermåligt (produkten är dålig) Nollhypotesen är unionen av ”del-nollhypotesmängder”. Nollhypotesen förkastas om någon del förkastas. Man gör helt enkelt två test, ett för vardera parametern (ett eller två stickprov). Två test men en gemensam nivå. Kritiska området är ett snitt. Förkasta betyder här att godkänna batchen, och då ska produkten klara båda testen

Allmän fördel med union-intersection och intersection-union: en komplex nollhypotes kan konstrueras från enkla fall Vilken nivå man faktiskt har (dvs ”size”) kan vara svårt att utreda. Men det behövs kanske inte i praktiken: övre begränsning räcker (dvs ”level”)

Ett till exempel på IU-test Ekvivalenstest (bioekvivalens). Vanligt i läkemedelsprövning Nollhypotes är att det aktuella läkemedlet är olikt befintligt läkemedel m.a.p. på någon viss variabel. Olikt= för stort eller för litet värde, dvs unionen av två områden Kritiskt område en snittmängd: Differens

Size and level för IUT Ett UIT eller IUT är sammansatt av del-hypoteser. Betrakta en av dem. En mängd utgör nollhypotes och kritiskt område är ”Hela” nollhypotesen är Hela kritiska området är

Bevis: välj godtyckligt en av delhypoteserna. Teorem 8.3.23. Om delhypotes  har nivå och kritiskt område , då har IU-testet nivå och kritiskt område Bevis: välj godtyckligt en av delhypoteserna. R är en delmängd av Enl förutsättning Alfa är bara en övre gräns

”Size” kan dock vara lägre, dvs risken för typ-I-fel kan vara mindre än angiven level. För ekvivalenstest brukar size vara något mindre än level Hur utföra ett ekvivalenstest på nivån ? Det vanligaste sättet är Westlakes 2-alfa-test. Man beräknar ett konfidensintervall:

Varje delhypotes är ett ensidigt test på nivån  Enl teorem 8.3.23 blir testets nivå också  Artikeln Berger and Hsu (1996) i tidskriften Statistical Science är bra om man vill på allvar förstå ekvivalenstest