Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Slides:

Advertisements

Liknande presentationer

Punkt- och intervallskattning Felmarginal

Advertisements

Inferens om en population Sid

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:

Samband mellan kvalitativa variabler Sid

1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.

FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

732G22 Grunder i statistisk metodik

FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Jämförelse av två populationer Sid

Kapitel 5 Stickprovsteori Sid

Linda Wänström och Elisabet Nikolic (Karl Wahlin)

732G22 Grunder i statistisk metodik

FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)

Workshop i statistik för medicinska bibliotekarier!

Tillämpad statistik Naprapathögskolan

Skattningens medelfel

Förelasning 6 Hypotesprövning

Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Statistikens grunder 2 dagtid

Egenskaper för punktskattning

Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.

Linjär regression föreläsning 9

Normalfördelningen och centrala gränsvärdessatsen

F8 Hypotesprövning. Begrepp

F8 Hypotesprövning. Begrepp

Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9

Statistik Lars Valter Fil.lic. Statistik

Några allmänna räkneregler för sannolikheter

732G22 Grunder i statistisk metodik

VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:

1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:

Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.

Forskningsmetodik lektion

Krav på vetenskaplig tolkning

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.

  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.

Modell för konsumtionen i Sverige Från Baudins kompendium.

Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)

Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.

UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)

Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:

1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.

Korstabeller och logistisk regression Samband mellan kvalitativa variabler.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.

Marknadsundersökning Kap 12

Grundl. statistik F2, ht09, AN

Grundläggande begrepp

Presentationens avskrift:

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient 1

population Målpopulation Stickprov, slumpmässigt urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer 2

Exempel: 20 personers ålder noterades: Descriptive Statistics: Ålder Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder 20 23,850 1,694 21,000 22,250 24,000 25,000 27,000 3

population Målpopulation: Socionomstudenter, Umeå Stickprov. Ur populationen valdes det slumpmässigt ut 20 personer INFERENS = Om man vet att medelvärdet i stickprovet är 23,85, hur bra är denna skattning av det sanna medelvärdet i hela populationen? Medelåldern av de 20 personerna är år Sanna medelåldern (Okänt) 4

23,85 är en punktskattning (kvalificerad gissning) av den sanna medelåldern bland socionomstudenterna i Umeå. Hur bra är denna skattning? Vilka faktorer påverkar precisionen på skattningen? 5

Konfidensintervall För att åskådliggöra osäkerheten i en skattningen så bildar man ofta s.k konfidensitervall Konfidensintervall är ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% säkerhet, men 99% och 99,9% förekommer också. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till 23,85±0,79 (Man säger att den statistiska felmarginalen är på 0,79 år.) 6

Två helt synonyma sätt att uttrycka sig med konfidensintervallet är: Ett 95%-igt konfidensintervall för genomsnittsåldern i populationen är 23,85±0,79 Genomsnittsåldern i populationen ligger med 95% konfidens i intervallet 23,06 till 24,64 (Genomsnittsåldern i populationen ligger med 99% konfidens i intervallet 22,77 till 24,93) 7

Hypotesprövning Exempel: Slant-singling… 8

Test av hypoteser - intro Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Är myntet obalanserat? Har män högre lön än kvinnor? Finns det något samband mellan män och kvinnor när det gäller deras val av frukost? Finns det något samband mellan kön och inställning till flytt från staden? etc. 9

Hypotetisk-Deduktiv metod Hypotetisk-deduktiv metod är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva denna metod var vetenskapsteoretikern Karl Popper ( ). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet. 10

Dvs, Popper ansåg att en hypotes (utsaga) bara är vetenskaplig ifall den - är falsifierbar - har bekräftats av någon slags observation. (Falsifierbar = Det ska gå att beskriva sammanhang då teorin är falsk för att man ska kunna bevisa att den är sann.) 11

Den hypotetisk-deduktiva metoden innebär: 1.Att formulera en hypotes (nollhypotes). 2. Att härleda konsekvenser som logiskt måste följa av hypotesen. 3. Att undersöka om dessa konsekvenser stämmer överens med verkligheten. 12

Om man hittar konsekvenser som inte överens- stämmer med verkligheten så måste hypotesen förkastas (falsifieras), dvs den har motbevisats. (Man har alltså bevisat att mothypotesen är sann.) Konsekvenser som visar sig stämma med verkligheten sägs stärka hypotesen, men man kan inte bevisa dess riktighet. Detta eftersom man inte kan utesluta att någon annan senare lyckas komma med ett försök som ger negativt resultat 13

Exempel: Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Vi har bevisat att alla svanar är inte vita. Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan Så måste den vara vit. Observation: Svanen är vit. Slutsats: Vi kan inte förkasta hypotesen. Hypotesen är stärkt, men vi har inte bevisat att den är sann! 14

Motsägelsebevis Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”. 15

Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 5%. 16

Signifikansnivån är alltså ett mått på vilken risk man är beredd att ta att förkasta en sann nollhypotes. Signifikansnivån kan också kallas för felrisk. Exempel: Domstol…. ( Vanliga signifikansnivåer är 5%, 1% och 0.1% ) Jämför dessa nivåer med konfidensintervallets 95%, 99% och 99,9% 17

Exempel: I syfte att undersöka om en enkrona är balanserad så kastades ett mynt 20 gånger. (Med balanserd så menas att det är lika troligt att ”krona” kommer upp som att ”klave” kommer upp vid en singling.) 18

Hypotes: Myntet är balanserat Konskvens: Om hypotesen är sann så borde antalet ”krona” och antalet ”klave” vara ungefär lika stor bland de 20 singlingarna. (Dvs, det borde bli ca 10 stycken krona och klave bland de 20 singlingarna.) Fråga: Är det i stickprovet en osannolikt stor skillnad mellan antalet ”krona” och antalet ”klave”? 19

Teststatistika Inom statistisk hypotesprövning uttrycker vi konsekvenserna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen. 20

21 p-värdet P-värdet är ett mått på hur troligt det är att nollhypotesen är sann med tanke på de observationer som vi fått, eller mer korrekt: Ett p-värde är sannolikheten att vi pga slumpen ska få ett minst lika avvikande värde från nollhypotesen som det värde vi fått. Om p-värdet är litet har vi antingen sett något som är väldigt osannolikt eller så är nollhypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas noll-hypotesen och det är därmed statistiskt säkerställt att nollhypotesen är falsk.(Vi säger att vi har empiriskt stöd för mothypotesen.)

Exempel Tärningsexempel… 22

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 5%, 1%, 0.1% (0.05, 0.01, 0.001) Utför testet (beräkna teststatistikan) och beräkna p-värdet. Dra slutsats genom att jämföra p-värde med signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < signifikansnivån) - Förkasta ej nollhypotesen (p-värdet ≥ sig.nivån ) 23

Exempel Choklad kan sänka blodtrycket… 24

Chi2-test ( χ 2 -test) uttalas: tji-två-test Används då man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra Chitvå-test 25

Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar (16-25år) om sin inställning till att flytta ifrån staden. Följande resultat erhölls: positivNegativ Pojke545 Flicka

Samband mellan kön och inställning till flytt. 27

Det ser ut som att pojkarnas inställning till flytt är mer negativa jämfört med flickornas. Fråga: Är det slumpen som är orsaken till denna skillnad, eller är skillnaden så pass stor så att det är statistiskt säkerställt att det finns ett samband mellan kön och inställning till flytt? PositivNegativ Pojke10%90% Flicka25%75% 28

Nollhypotes: Det finns inget samband mellan kön och inställning till flytt Mothypotes: Det finns ett samband mellan kön och inställning till flytt 29

Observerad tabell: PositivNegativ Pojke545 Flicka

Om nollhypotesen är sann så borde vi förvänta oss följande tabell, förväntad tabell: Teststatistika: PositivNegativ Pojke50 Flicka

Det förväntade värdet räknas ut med hjälp av följande formel: 32

Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är 4,69 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 5%. Observerat p-värde: 0.03 (Excel ger oss detta värde) Slutsats? 33

34

I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att vi pga slumpen observerar ett värde som är minst lika avvikande som 4,69 (om nollhypotesen är sann) = 0.03 Tolkning: Under antagandet att det inte finns något samband så är det bara 3% chans att få det resultat som vi fått. Vi har definierat en osannolik händelse som något som inträffar mer sällan än 5%. Detta är alltså en osannolik händelse… 35

Eftersom p-värdet = 0,03 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det föreligger ett samband mellan kön och inställning till flytt. Eller, det föreligger en signifikant skillnad inställning mellan pojkar och flickor Eller, vi har empiriskt stöd för att det föreligger… 36

Exempel 2: 100 slumpmässigt utvalda studenter (50 kvinnor och 50 män) blev tillfrågade om de har Guldkort på IKSU 37

JaNej Man1040 Kvinna1535 Observerad tabell: Ja = student har Guldkort Nej = studenten har inte Guldkort 38

Nollhypotes: Mothypotes: 39

JaNej Man50 Kvinna Förväntad tabell: χ obs 2 = 40

Vi observerar χ obs 2 = 1,33 Är 1,33 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: 0,248 Slutsats: Vi har inte fått en osannolik händelse och kan därmed inte förkasta nollhypotesen. 41

Eftersom p-värdet = 0,248 är större än 0.05(=α) så kan vi inte förkasta hypotesen. Dvs det är inte statistiskt säkerställt att det är finns ett samband mellan kön och innehav av Guldkort på IKSU. Eller, det föreligger ingen signifikant skillnad i innehav av guldkort mellan kvinnor och män. Eller, vi har inget empiriskt stöd för att det förel… 42

Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk. 43

Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: a)Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? b)P-värdet blev Vad drar ni för slutsats? Hur ofta man känner sig stressad ekonom socionom Tot. Aldrig Ibland Ofta Totalt

Tumregel för Chi2-test För att man ska kunna lita på resultatet från ett Chi2- test så krävs det att den förväntade tabellen upp- fyller vissa krav 1.Medelvärdet av de förväntade värdena ska vara större än 5 och inget värde får vara mindre än 1. 2.I en 2*2-tabell så krävs det att alla förväntade värden är större än 5 Åtgärd: Slå ihop klasser! 45

Samband mellan variabler mätta på kvotnivå 46

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. OBS! Hög korrelation är inget bevis för kausalt samband mellan variablerna. 47

Y X r = -1 Y X r = 0 Y X r = 1 Y X r = -0.8 Y X r = 0 Y X r = 0.8 Exempel på korrelationer… 48

Mer korrelation… 49

Sambandet mellan ålder och yrkeserfarenhet är linjärt samt starkt positivt (när den ena variabeln ökar så ökar också den andra variabeln) Korrelationen mellan ålder och yrkeserfarenhet är +0,93 50