Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer
Ett stickprov kvantitativa data: t-test
Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Statistikens grunder 2 dagtid
Egenskaper för punktskattning
Statistik för internationella civilekonomer
FL6 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Statistik Lars Valter Fil.lic. Statistik
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
732G22 Grunder i statistisk metodik
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Medicinsk statistik Läkarprogrammet HT Medicinsk statistik Varför behöver Ni kunskap i medicinsk statistik? Självständigt arbete Kunna tolka resultat.
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
Föreläsning 4 732G81. Kapitel 4 Sannolikhetsfördelningar Sid
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)
UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Betingade sannolikheter. 2 Antag att vi kastar en tärning och noterar antalet prickar som kommer upp. Låt A vara händelsen ”udda antal prickar”, dvs.
1. Kontinuerliga variabler
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
1 I. Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Marknadsundersökning Kap 12
Presentationens avskrift:

Statistisk hypotesprövning

Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares påstående att den sätter 70 % av alla sina straffar? I en fabrik: Fungerar maskinen som fyller schampoflaskor korrekt? Finns det någon skillnad i resultatet från en ny behandling jämfört med den traditionella?

Resonemanget bakom statistisk hypotesprövning Formellt: Hypotetisk-deduktiv metod (utgår ifrån ett påstående, en s.k. nollhypotes) Jämför detta påstående med verkligheten Exempel: Anna påstår att hon sätter 70 % av alla sina straffar Vi ber henne bevisa detta för oss. Hon lägger 20 straffar och lyckas sätta 9 av dessa Vi drar slutsatsen att om det stämmer att hon sätter 70 %, så skulle hon nästan aldrig sätta så få som 9 av 20 Slutsats: Vi tror inte på hennes påstående.

Samma resonemang i ett statistiskt test: – Om vi antar att påståendet (nollhypotesen) är sant, hur troligt är det att se det vi ser i verkligheten (dvs. i vårt stickprov)? – Om vi ser någonting som är mycket osannolikt, givet att nollhypotesen är sann, drar vi slutsatsen att det är troligt att nollhypotesen inte stämmer och vi förkastar nollhypotesen.

Antag att en fabrik som tillverkar schampo som i genomsnitt ska väga 300 gram misstänker att maskinen som fyller schampoflaskorna inte fungerar korrekt Nollhypotes (H 0 ): Medelvikten av schampoflaskorna är 300 gram Alternativhypotes (H A ): Medelvikten är inte 300 gram Empirisk konsekvens: Om medelvikten hos schampoflaskorna är 300 gram så borde ett slumpmässigt urval av dessa ge ett stickprovsmedelvärde som inte skiljer sig alltför mycket från 300. Om nollhypotesen är sann så är det en osannolik händelse att i en urvalsundersökning observera ett stickprovsmedelvärde som skiljer sig mycket från det förväntade.

Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om nollhypotesen är sann I statistiska termer kallas det för att man har valt signifikansnivån, α, 0,05, eller 5 % (Vanliga signifikansnivåer är 0.05, 0.01 och 0.10)

Hur avgör vi då om det som vi ser i vårt stickprov är en ”osannolik händelse”? Vi tittar på samplingfördelningen för vår teststatistika (t.ex. stickprovsmedelvärdet)! Den säger oss hur fördelningen för vår teststatistika borde se ut då nollhypotesen är sann.

Utifrån vår nollhypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan (t.ex. stickprovsmedelvärdet) troligtvis kommer att bli då nollhypotesen är sann. Sedan drar vi ett stickprov och räknar ut värdet på teststatistikan Får vi ett värde som är osannolikt under nollhypotesen så förkastar vi nollhypotesen

Forts. fabriksexemplet: Antag att vi tar ett stort stickprov från populationen av schampoflaskor. – Då vet vi att om vi tar upprepade stickprov av samma storlek från denna population, så kommer stickprovsmedelvärdets variation från stickprov till stickprov att följa en normalfördelning med standardavvikelsen: – Och om nollhypotesen är sann och populationsmedelvärdet för flaskorna är 300 så kommer samplingfördelningen för stickprovsmedelvärdet att vara centrerad kring 300

– Empirisk konsekvens: Om nollhypotesen är sann så är sannolikheten 0.95 att få ett stickprovsmedelvärde som ligger max från , dvs. från 300. Med andra ord förväntas stickprovsmedelvärdet ge ett z- värde mellan -2 och 2 om nollhypotesen är sann.

– Exempel på observation: Stickprovsmedelvärdet ligger mer än två standardavvikelser från den nollhypotes vi har om populationsmedelvärdet (dvs. vi får ett z-värde som är mindre än –2 eller större än 2) – Slutsats: Förkasta nollhypotesen. – Om nollhypotesen är sann är sannolikheten mycket liten, endast 0,05, att jag skall få en observation på stickprovsmedelvärdet som ligger så långt ifrån populationsmedelvärdet. Antingen har jag sett något som är osannolikt eller så är nollhypotesen falsk.

Antag att vi vet att schampoflaskpopulationens standardavvikelse  är σ=24. Vi skall ta ett stickprov bestående av n=36 enheter: – Nollhypotes (H 0 ):  = 300, – Alternativhypotes (H A ):  ≠ 300 – Signifikansnivå: α=  – Teststatistika: Stickprovsmedelvärdet, som är normalfördelat med standardavvikelsen och (om nollhypotesen är sann) medelvärdet 300.

– Kritiska gränser: Med signifikansnivån 5% skall vi förkasta nollhypotesen om stickprovsmedelvärdet är mindre än eller större än Ekvivalent kan vi förkasta nollhypotesen om z-värdet är mindre än -2 eller större än 2.

– Observation: Vi drar ett stickprov och beräknar stickprovsmedelvärdet till 310 (vilket ger z = 2,5). – Slutsats: Förkasta nollhypotesen. Medelvikten av schampoflaskorna är inte 300, maskinen fungerar inte korrekt.

15 P-värden Ett p-värde är sannolikheten att, om nollhypotesen är sann, vid en upprepning av försöket få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är nollhypotesen falsk Om p-värdet är tillräckligt litet (t.ex. < 0.05 eller < 0.01) förkastas nollhypotesen

16 Forts. på exempel: – H 0 :  = 300, H A :   300. – Vi får observationen z = 2,5 (stickprovsmedelvärdet blev 310). – P-värdet = (Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2,5 standardavvikelser från 300) = – Observera att vi, med α=0,05, skall förkasta nollhypotesen om p-värdet är under 0,05. – Om nollhypotesen kan förkastas säger man ibland att resultatet är ”signifikant” eller ”statistiskt säkerställt”.

Exempel: Annas påstående om sin förmåga att sätta straffar Nollhypotes: p=0,7 Alternativhypotes: p < 0,7 Signifikansnivå: α=0,05 Observerad teststatistika: Vilket ger ett z-värde på

P-värdet = (Sannolikheten att få en stickprovsproportion som ligger minst 2,4 standardavvikelser under populationsproportionen, om nollhypotesen är sann)=0,0082 0,0082<0,05 Slutsats: Vi har tillräckligt starka belägg för att förkasta nollhypotesen.

Test av skillnad mellan två medelvärden Om man t.ex. vill jämföra två behandlingar. Nollhypotesen: det finns ingen skillnad mellan populationsmedelvärdena. Alternativhypotesen: det finns en skillnad. Använder oss egentligen av ett s.k. t-test. Vi förkastar nollhypotesen om skillnaden mellan stickprovsmedelvärdena är tillräckligt stor, dvs. vi får ett p- värde under 0,05.

Exempel: Skillnad i effekten på rörlighet mellan massage med traditionell massageolja och massage med en ny typ av massagolja Vi har randomiserat 40 personer, 20 till vardera behandling, och mäter deras rörlighet före och efter behandlingen enligt en 10-gradig skala. Nollhypotes: Det finns ingen skillnad gällande den genomsnittliga ökningen av rörligheten mellan de två behandlingarna Alternativhypotes: Det finns en skillnad Signifikansnivå: α=0,05

Den genomsnittliga rörlighetsökningen med traditionell massageolja blev ca 1,0 Den genomsnittliga rörlighetsökningen med den nya massageoljan blev ca 1,3 Skillnaden är alltså ca 0,2 Med hjälp av en dator räknar vi ut p-värdet, som blir ca 0,67 0,67>0,05 Slutsats: Vi kan ej förkasta nollhypotesen. Vi har alltså inte tillräckligt starka belägg för att säga att det finns en skillnad mellan de två massageoljorna vad gäller påverkan på rörligheten.

Att tänka på när man gör en undersökning Följ stegen (Syfte och problemformulering, Planering…) Definiera populationen tydligt Beskriv hur datainsamlingen gått till och använd slumpmässiga metoder där det är möjligt Ange stickprovsstorleken Beskriv dina variabler och hur dessa har mätts

Nämn eventuellt bortfall (både individ- och partiellt-) och andra problem som kan ha uppstått När du fått in dina data: Börja med att titta på hur de ser ut! Fråga dig själv om resultaten verkar rimliga. Ange aldrig bara ett p-värde utan att också redovisa de skattningar som ligger till grund för det