Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.

Slides:

Advertisements

Liknande presentationer

Punkt- och intervallskattning Felmarginal

Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer

Ett stickprov kvantitativa data: t-test

Inferens om en population Sid

Deduktion och induktion ”Välgrundade” vetenskapliga (slut)satser förutsätter giltiga eller åtminstone trovärdiga slutledningar.

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:

Samband mellan kvalitativa variabler Sid

1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.

FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

732G22 Grunder i statistisk metodik

Inferens om en ändlig population Sid

Jämförelse av två populationer Sid

F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)

Workshop i statistik för medicinska bibliotekarier!

Tillämpad statistik Naprapathögskolan

Skattningens medelfel

Förelasning 6 Hypotesprövning

Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Statistikens grunder 2 dagtid

Egenskaper för punktskattning

Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.

Linjär regression föreläsning 9

Normalfördelningen och centrala gränsvärdessatsen

F8 Hypotesprövning. Begrepp

F8 Hypotesprövning. Begrepp

Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9

Statistik Lars Valter Fil.lic. Statistik

Några allmänna räkneregler för sannolikheter

732G22 Grunder i statistisk metodik

1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:

Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.

Forskningsmetodik lektion

Krav på vetenskaplig tolkning

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Klassificeringen av vetenskaper bygger åtminstone delvis på skillnader i metodik. Klassificeringen av vetenskaper kan även baseras på forskningsområden.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.

Modell för konsumtionen i Sverige Från Baudins kompendium.

Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.

Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Man har två kvalitativa variabler som man vill gemensamt undersöka. 1.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)

UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:

1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.

Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Två/flera populationer och en kvalitativ variabel (”The first model” i Moore)

Korstabeller och logistisk regression Samband mellan kvalitativa variabler.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.

1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.

Repetition av Chi2-test Kap 6, Kodning av svaren Kap 10, Olika feltyper Kap 12, Rapportskrivning.

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.

generellt deduktion induktion specifikt Deduktiva slutsatser är giltiga och med nödvändighet och sanna, om premisserna är sanna. Induktiva slutsatser.

Om det är åska, så mullrar det. Det mullrar inte.

Presentationens avskrift:

Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient Konfidensintervall

population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer

Test av hypoteser Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Har män högre lön än kvinnor? Finns det något samband mellan män och kvinnor när det gäller deras val av frukost? Finns det något samband mellan tv- och bio- människor vad gäller valet av hamburgare eller pizza? etc.

Hypotetisk-Deduktiv metod Hypotetisk-deduktiv metod är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva denna metod var vetenskapsteoretikern Karl Popper ( ). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet.

Dvs, Popper ansåg att en hypotes (utsaga) bara är vetenskaplig ifall den - är falsifierbar - har bekräftats av någon slags observation. (Falsifierbar = Det ska gå att beskriva sammanhang då teorin är falsk för att man ska kunna bevisa att den är sann.)

Den hypotetisk-deduktiva metoden innebär: 1.Att formulera en hypotes (nollhypotes). 2. Att härleda konsekvenser som logiskt måste följa av hypotesen. 3. Att undersöka om dessa konsekvenser stämmer överens med verkligheten.

Om man hittar konsekvenser som inte överens- stämmer med verkligheten så måste hypotesen förkastas (falsifieras), dvs den har motbevisats. (Man har alltså bevisat att mothypotesen är sann.) Konsekvenser som visar sig stämma med verkligheten sägs stärka hypotesen, men man kan inte bevisa dess riktighet. Detta eftersom man inte kan utesluta att någon annan senare lyckas komma med ett försök som ger negativt resultat

Exempel: Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Vi har bevisat att alla svanar är inte vita. Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan Så måste den vara vit. Observation: Svanen är vit. Slutsats: Vi kan inte förkasta hypotesen. Hypotesen är stärkt, men vi har inte bevisat att den är sann!

Motsägelsebevis Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.

Exempel: Hypotes: Det finns inget samband mellan tv/bio- människor vad gäller deras val av hamburgare/pizza. Konskvens: Om hypotesen är sann så borde andelen hamburge-fantaster vara lika stora bland tv- männsikorna som bland bio-männsikorna. Fråga: Är det osannolikt stor skillnad mellan andelen hamburge-fantaster bland tv-männsikorna jämfört med bio-männsikorna.?

Teststatistika Inom statistisk hypotesprövning uttrycker vi konsekvenserna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen.

Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 5%. Signifikansnivån kan också kallas för felrisk. ( Vanliga signifikansnivåer är 5%, 1%, 0.1%)

13 p-värdet P-värdet talar om hur sannolik vår observation är om nollhypotesen är sann, eller mer korrekt: Ett p-värde är sannolikheten att, om nollhypotesen är sann, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är nollhypotesen falsk. Om p- värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen och det är statistiskt säkerställt att nollhypotesen är falsk.

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 5%, 1%, 0.1% (0.05, 0.01, 0.001) Utför testet (beräkna teststatistikan) och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

Chi2-test – används vid test av samband mellan två variabler mätta på nominal eller ordinal mätnivå När man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra så kan man använda sig av ett Chitvå- test ( χ 2 -test ).

Exempel: En studie på socionomstudenter i Umeå har gjorts för att undersöka om det finns ett samband mellan om man är en tv- eller bio-människa och om man föredrar hamburgare eller pizza Urval: Ett klusterurval gjordes och lotten föll på T3. 57 personer deltog i studien.

HamburgarePizza Bio1412 Tv922 Följande resultat erhölls:

Samband mellan om man är en tv- eller bio-människa och om man föredrar hamburgare eller pizza.

Det ser ut som att personer som föredrar tv är mer förtjust i pizza jämfört med de som föredrar bio. Fråga: Är det slumpen som är orsaken till denna skillnad eller är skillnaden så pass stor så att det är statistiskt säkerställt att det finns ett samband mellan de två variablerna? HamburgarePizza Bio54%46% Tv29%71%

Nollhypotes: Det finns inget samband mellan om man är en tv- eller bio-människa och om man föredrar hamburgare eller pizza. Mothypotes: Det finns ett samband mellan om man är en tv- eller bio-människa och om man föredrar hamburgare eller pizza.

Observerad tabell: HamburgarePizza Bio1412 Tv922

Om nollhypotesen är sann så borde vi förvänta oss följande tabell, förväntad tabell: Teststatistika: HamburgarePizza Bio26 Tv

Det förväntade värdet räknas ut med hjälp av följande formel:

Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är 3.62 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 5%. Observerat p-värde: (Excel ger oss detta värde) Slutsats?

I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att χ obs 2 =3.62 eller ännu större än 3.62 (om nollhypotesen är sann) = Tolkning: Under antagandet att det inte finns något samband så är det 5.7% chans att få det resultat som vi fått. Vi har definerat en osannolik händelse som något som inträffar mer sällan än 5%. Detta är alltså inte en osannolik händelse…

Eftersom p-värdet = 0,057 är större än 0.05(=α) så kan vi inte förkasta hypotesen. Dvs det är inte statistiskt säkerställt att det är finns ett samband mellan om man är en tv- eller bio människa och om man föredrar hamburgare eller pizza. Eller, det finns ingen signifikant skillnad mellan andelen personer som föredrar pizza framför hamburgare oavsett om man är en tv eller bio- människa.

Exempel 2: Är cykel-människor överrepresenterade bland de som föredrar träning framför de som föredrar vila? Dvs finns det något samband mellan om man är en cykel/gå-människa och om man föredrar träning eller vila?

cykelgå Träning179 Vila1120 Observerad tabell:

Nollhypotes: Mothypotes:

KvällMorgon Träning26 Vila Förväntad tabell: χ obs 2 =

Vi observerar χ obs 2 = 5.06 Är 5.06 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: Slutsats: Vi har fått en osannolik händelse och kan därmed förkasta nollhypotesen.

Eftersom p-värdet = 0,025 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det är finns ett samband mellan om man är en träning- eller vilo människa vad gäller valet av cykla/gå. Eller, det finns en signifikant skillnad mellan andelen personer som föredrar cykel framför gång om man jämför träning- och vilo-människor.

Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: a)Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? b)P-värdet blev Vad drar ni för slutsats? Födelseplats i förhållande till Umeå ÖgonNorr Söder Tot. Blå Brun6915 Annat7714 Totalt

Samband mellan variabler mätta på kvotnivå

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot/intervall- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan ålder och yrkeserfarenhet är 0,93

Konfidensintervall Konfidensintervall används för att beskriva osäkerheten i sin gissning. Antag att man vill uppskatta hur stor andel av socionomstudenterna vid Umeå universitet som är födda söder om Umeå (eller i Umeå). I ett urval om 57 personer så var 31 stycken födda söder om Umeå.

Utifrån stickprovet så gissar vi att andelen socionomstudenter som är födda söder om Umeå är: Vi vet att 54% bara är en gissning av den sanna andelen, som dessutom med all säkerhet är fel! Genom att bilda ett konfidensintervall, så får vi ett intervall som täcker in det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet.

I vårt exempel kan ett 95%-igt konfidensintervall beräknas till: Dvs, vi kan med 95% säkerhet säga att den sanna andelen i populationen som är född söder i Umeå ligger mellan 41% och 67%. Intervallets längd bestäms bland annat av hur många observationer som man har baserat sin gissning på.

SLUT! Lycka till med era egna analyser!