Samband & Inferens Konfidensintervall Statistisk hypotesprövning

Slides:

Advertisements

Liknande presentationer

Punkt- och intervallskattning Felmarginal

Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer

Inferens om en population Sid

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:

Samband mellan kvalitativa variabler Sid

1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.

FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

732G22 Grunder i statistisk metodik

FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Jämförelse av två populationer Sid

Kapitel 5 Stickprovsteori Sid

732G22 Grunder i statistisk metodik

F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)

Workshop i statistik för medicinska bibliotekarier!

Tillämpad statistik Naprapathögskolan

Skattningens medelfel

Förelasning 6 Hypotesprövning

Centrala Gränsvärdessatsen:

Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.

Samhällsvetenskapliga metoder

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Statistikens grunder 2 dagtid

Egenskaper för punktskattning

Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.

Linjär regression föreläsning 9

Normalfördelningen och centrala gränsvärdessatsen

F8 Hypotesprövning. Begrepp

F8 Hypotesprövning. Begrepp

Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9

Statistik Lars Valter Fil.lic. Statistik

Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.

Några allmänna räkneregler för sannolikheter

732G22 Grunder i statistisk metodik

1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:

Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.

Krav på vetenskaplig tolkning

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.

  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.

Modell för konsumtionen i Sverige Från Baudins kompendium.

Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.

Metod i samhällsvetenskap s Ur centralt innehåll och kunskapskrav  Tillämpning av samhällsvetenskapliga begrepp, teorier, modeller och metoder.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)

Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.

UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:

1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.

Korstabeller och logistisk regression Samband mellan kvalitativa variabler.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.

Marknadsundersökning Kap 12

Ett verktyg för systematisk uppföljning i missbruksbruksvården

Presentationens avskrift:

Samband & Inferens Konfidensintervall Statistisk hypotesprövning Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler Chi2-test Samband mellan kvot-varibaler Korrelationskoefficient

Population Stickprov, urval population Data, observationer INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov

Exempel: 20 personers ålder noterades: Descriptive Statistics: Ålder Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder 20 23,850 1,694 21,000 22,250 24,000 25,000 27,000

Socionomstudenter, Umeå Population: Socionomstudenter, Umeå Sanna medelåldern (Okänt) Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer population Medelåldern av de 20 personerna är 23.85 år INFERENS = Om man vet att medelvärdet i stickprovet är 23,85, hur bra är denna gissning av det sanna medelvärdet i hela populationen?

23,85 är en skattning (gissning) av den sanna medelåldern bland socionomstudenterna i Umeå. Hur bra är denna gissning? Vilka faktorer påverkar precisionen på skattningen?

Konfidensintervall För att åskådliggöra osäkerheten i en skattningen så bildar man ofta s.k konfidensitervall Konfidensintervall är ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till:

Man säger att den statistiska felmarginalen är på 0,79 år. Dvs, vi kan vara ganska säkra (95%) på att den sanna medel-åldern i populationen ligger mellan 23,06 och 24,64 år. Detta eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen. (Ett 99%-igt kfiv skulle i detta exempel bli: (22,77; 24,93))

Hypotesprövning

Test av hypoteser - intro Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Har män högre lön än kvinnor? Finns det något samband mellan män och kvinnor när det gäller deras val av frukost? Finns det något samband mellan kön och innehav av Guldkort på IKSU bland studenterna på Umu? etc.

Hypotetisk-Deduktiv metod Hypotetisk-deduktiv metod är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva denna metod var vetenskapsteoretikern Karl Popper (1902-1994). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet.

Dvs, Popper ansåg att en hypotes (utsaga) bara är vetenskaplig ifall den - är falsifierbar - har bekräftats av någon slags observation. (Falsifierbar = Det ska gå att beskriva sammanhang då teorin är falsk för att man ska kunna bevisa att den är sann.)

Den hypotetisk-deduktiva metoden innebär: Att formulera en hypotes (nollhypotes). 2. Att härleda konsekvenser som logiskt måste följa av hypotesen. 3. Att undersöka om dessa konsekvenser stämmer överens med verkligheten.

Om man hittar konsekvenser som inte överens-stämmer med verkligheten så måste hypotesen förkastas (falsifieras), dvs den har motbevisats. (Man har alltså bevisat att mothypotesen är sann.) Konsekvenser som visar sig stämma med verklig-heten sägs stärka hypotesen, men man kan inte bevisa dess riktighet. Detta eftersom man inte kan utesluta att någon annan senare lyckas komma med ett försök som ger negativt resultat

Exempel: Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Vi har bevisat att alla svanar är inte vita. Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan Så måste den vara vit. Observation: Svanen är vit. Slutsats: Vi kan inte förkasta hypotesen. Hypotesen är stärkt, men vi har inte bevisat att den är sann!

Motsägelsebevis Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.

Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar om sin inställning till att flytta ifrån staden. Man fann då att 10% av de 50 pojkarna i materialet var positiva till flytt, medan motsvarande siffra för flickorna var 25%.

Hypotes: Det finns inget samband mellan flickor /pojkar vad gäller deras inställning till att flytta. Konskvens: Om hypotesen är sann så borde andelen som är positiva till flytt vara lika stora bland pojkarna som bland flickorna. Fråga: Är det i stickprovet en osannolikt stor skillnad mellan pojkar och flickors inställning till flytt, om det i populationen inte finns någon skillnad?

Teststatistika Inom statistisk hypotesprövning uttrycker vi konsekvenserna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen.

Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 5%. Signifikansnivån kan också kallas för felrisk. ( Vanliga signifikansnivåer är 5%, 1%, 0.1%)

p-värdet P-värdet talar om hur sannolik vår observation är om nollhypotesen är sann, eller mer korrekt: Ett p-värde är sannolikheten att vi pga slumpen ska få ett minst lika avvikande värde från nollhypotesen som det värde vi fått. Om p-värdet är litet har vi antingen sett något som är väldigt osannolikt eller så är nollhypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas noll-hypotesen och det är därmed statistiskt säkerställt att nollhypotesen är falsk.

Tärningsexempel…

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 5%, 1%, 0.1% (0.05, 0.01, 0.001) • Utför testet (beräkna teststatistikan) och beräkna p-värdet. • Dra slutsats genom att jämföra p-värde med signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

Chi2-test ( χ2-test) uttalas: tji-två-test Används då man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra Chitvå-test

Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar om sin inställning till att flytta ifrån staden. Följande resultat erhölls: positiv Negativ Pojke 5 45 Flicka 25 75

Samband mellan kön och inställning till flytt.

Det ser ut som att pojkarnas inställning till flytt är mer negativa jämfört med flickornas. Fråga: Är det slumpen som är orsaken till denna skillnad eller är skillnaden så pass stor så att det är statistiskt säkerställt att det finns ett samband mellan kön och inställning till flytt? Positiv Negativ Pojke 10% 90% Flicka 25% 75%

Nollhypotes: Det finns inget samband mellan kön och inställning till flytt Mothypotes: Det finns ett samband mellan kön och inställning till flytt

Observerad tabell: Positiv Negativ Pojke 5 45 Flicka 25 75

Om nollhypotesen är sann så borde vi förvänta oss följande tabell, förväntad tabell: Positiv Negativ Pojke 50 Flicka 100 30 120 150 Teststatistika:

Det förväntade värdet räknas ut med hjälp av följande formel:

Om nollhypotesen är sann borde χobs2 vara nära 0. Är 4,69 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 5%. Observerat p-värde: 0.03 (Excel ger oss detta värde) Slutsats?

I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att vi pga slumpen observerar ett värde som är minst lika avvikande som 4,69 (om nollhypotesen är sann) = 0.03 Tolkning: Under antagandet att det inte finns något samband så är det bara 3% chans att få det resultat som vi fått. Vi har definierat en osannolik händelse som något som inträffar mer sällan än 5%. Detta är alltså en osannolik händelse…

Eftersom p-värdet = 0,03 är mindre än 0 Eftersom p-värdet = 0,03 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det föreligger ett samband mellan kön och inställning till flytt. Eller, det föreligger en signifikant skillnad inställning mellan pojkar och flickor

Exempel 2: 100 slumpmässigt utvalda studenter (50 kvinnor och 50 män) blev tillfrågade om de har Guldkort på IKSU

Observerad tabell: Ja Nej Man 10 40 Kvinna 15 35 Ja = student har Guldkort Nej = studenten har inte Guldkort

Nollhypotes: Mothypotes:

Förväntad tabell: Ja Nej Man 50 Kvinna 25 75 100 χobs2=

Vi observerar χobs2 = 1,33 Är 1,33 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: 0,248 Slutsats: Vi har inte fått en osannolik händelse och kan därmed inte förkasta nollhypotesen.

Eftersom p-värdet = 0,248 är större än 0 Eftersom p-värdet = 0,248 är större än 0.05(=α) så kan vi inte förkasta hypotesen. Dvs det är inte statistiskt säkerställt att det är finns ett samband mellan kön och innehav av Guldkort på IKSU. Eller, det föreligger ingen signifikant skillnad i innehav av guldkort mellan kvinnor och män.

Två typer av fel Typ I fel: Förkasta nollhypotesen när den är sann. Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

P-värdet blev 0.54. Vad drar ni för slutsats? Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: Hur ofta man känner sig stressad ekonom socionom Tot. Aldrig 10 6 16 Ibland 40 42 82 Ofta 12 22 Totalt 60 120 Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? P-värdet blev 0.54. Vad drar ni för slutsats?

Tumregel för Chi2-test För att man ska kunna lita på resultatet från ett Chi2-test så krävs det att den förväntade tabellen upp-fyller vissa krav Medelvärdet av de förväntade värdena ska vara större än 5 och inget värde får vara mindre än 1. I en 2*2-tabell så krävs det att alla förväntade värden är större än 5 Åtgärd: Slå ihop klasser!

Samband mellan variabler mätta på kvotnivå

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot/intervall- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan ålder och yrkeserfarenhet är 0,93 OBS. Hög korrelation är inget bevis för kausalt samband mellan variablerna.

Lycka till med era egna analyser! SLUT! Lycka till med era egna analyser!