Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient 1
population Målpopulation Stickprov, slumpmässigt urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer 2
Exempel: 20 personers ålder noterades: Descriptive Statistics: Ålder Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder 20 23,850 1,694 21,000 22,250 24,000 25,000 27,000 3
population Målpopulation: Socionomstudenter, Umeå Stickprov. Ur populationen valdes det slumpmässigt ut 20 personer INFERENS = Om man vet att medelvärdet i stickprovet är 23,85, hur bra är denna gissning av det sanna medelvärdet i hela populationen? Medelåldern av de 20 personerna är år Sanna medelåldern (Okänt) 4
23,85 är en punktskattning (kvalificerad gissning) av den sanna medelåldern bland socionomstudenterna i Umeå. Hur bra är denna gissning? Vilka faktorer påverkar precisionen på skattningen? 5
Konfidensintervall För att åskådliggöra osäkerheten i en skattningen så bildar man ofta s.k konfidensitervall Konfidensintervall är ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% säkerhet, men 99% och 99,9% förekommer också. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till 23,85±0,79 (Man säger att den statistiska felmarginalen är på 0,79 år.) 6
Två helt synonyma sätt att uttrycka sig med konfidensintervallet är: Ett 95%-igt konfidensintervall för genomsnittsåldern i populationen är 23,85±0,79 Genomsnittsåldern i populationen ligger med 95% konfidens i intervallet 23,06 till 24,64 (Genomsnittsåldern i populationen ligger med 99% konfidens i intervallet 22,77 till 24,93) 7
Hypotesprövning Exempel: Slant-singling… 8
Test av hypoteser - intro Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Är myntet obalanserat? Har män högre lön än kvinnor? Finns det något samband mellan män och kvinnor när det gäller deras val av frukost? Finns det något samband mellan kön och inställning till flytt från staden? etc. 9
Hypotetisk-Deduktiv metod Hypotetisk-deduktiv metod är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva denna metod var vetenskapsteoretikern Karl Popper ( ). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet. 10
Dvs, Popper ansåg att en hypotes (utsaga) bara är vetenskaplig ifall den - är falsifierbar - har bekräftats av någon slags observation. (Falsifierbar = Det ska gå att beskriva sammanhang då teorin är falsk för att man ska kunna bevisa att den är sann.) 11
Den hypotetisk-deduktiva metoden innebär: 1.Att formulera en hypotes (nollhypotes). 2. Att härleda konsekvenser som logiskt måste följa av hypotesen. 3. Att undersöka om dessa konsekvenser stämmer överens med verkligheten. 12
Om man hittar konsekvenser som inte överens- stämmer med verkligheten så måste hypotesen förkastas (falsifieras), dvs den har motbevisats. (Man har alltså bevisat att mothypotesen är sann.) Konsekvenser som visar sig stämma med verklig- heten sägs stärka hypotesen, men man kan inte bevisa dess riktighet. Detta eftersom man inte kan utesluta att någon annan senare lyckas komma med ett försök som ger negativt resultat 13
Exempel: Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Vi har bevisat att alla svanar är inte vita. Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan Så måste den vara vit. Observation: Svanen är vit. Slutsats: Vi kan inte förkasta hypotesen. Hypotesen är stärkt, men vi har inte bevisat att den är sann! 14
Motsägelsebevis Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”. 15
Exempel: I syfte att undersöka om en enkrona är balanserad så kastades ett mynt 20 gånger. (Med balanserd så menas att det är lika troligt att ”krona” kommer upp som att ”klave” kommer upp vid en singling.) 16
Hypotes: Myntet är balanserat Konskvens: Om hypotesen är sann så borde antalet ”krona” och antalet ”klave” vara ungefär lika stor bland de 20 singlingarna. (Dvs, det borde bli ca 10 stycken krona och klave bland de 20 singlingarna.) Fråga: Är det i stickprovet en osannolikt stor skillnad mellan antalet ”krona” och antalet ”klave”? 17
Teststatistika Inom statistisk hypotesprövning uttrycker vi konsekvenserna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen. 18
Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 5%. 19
Signifikansnivån är alltså ett mått på vilken risk man är beredd att ta att förkasta en sann nollhypotes. Signifikansnivån kan också kallas för felrisk. Exempel: Domstol…. ( Vanliga signifikansnivåer är 5%, 1% och 0.1% ) Jämför dessa nivåer med konfidensintervallets 95%, 99% och 99,9% 20
21 p-värdet P-värdet talar om hur sannolik nollhypotesen är om vi tar hänsyn till de observationer som vi har, eller mer korrekt: Ett p-värde är sannolikheten att vi pga slumpen ska få ett minst lika avvikande värde från nollhypotesen som det värde vi fått. Om p-värdet är litet har vi antingen sett något som är väldigt osannolikt eller så är nollhypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas noll-hypotesen och det är därmed statistiskt säkerställt att nollhypotesen är falsk.(Vi säger att vi har empiriskt stöd för mothypotesen.)
Exempel Tärningsexempel… 22
Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 5%, 1%, 0.1% (0.05, 0.01, 0.001) Utför testet (beräkna teststatistikan) och beräkna p-värdet. Dra slutsats genom att jämföra p-värde med signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < signifikansnivån) - Förkasta ej nollhypotesen (p-värdet ≥ sig.nivån ) 23
Exempel Choklad kan sänka blodtrycket… 24
Chi2-test ( χ 2 -test) uttalas: tji-två-test Används då man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra Chitvå-test 25
Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar (16-25år) om sin inställning till att flytta ifrån staden. Följande resultat erhölls: positivNegativ Pojke545 Flicka
Samband mellan kön och inställning till flytt. 27
Det ser ut som att pojkarnas inställning till flytt är mer negativa jämfört med flickornas. Fråga: Är det slumpen som är orsaken till denna skillnad, eller är skillnaden så pass stor så att det är statistiskt säkerställt att det finns ett samband mellan kön och inställning till flytt? PositivNegativ Pojke10%90% Flicka25%75% 28
Nollhypotes: Det finns inget samband mellan kön och inställning till flytt Mothypotes: Det finns ett samband mellan kön och inställning till flytt 29
Observerad tabell: PositivNegativ Pojke545 Flicka
Om nollhypotesen är sann så borde vi förvänta oss följande tabell, förväntad tabell: Teststatistika: PositivNegativ Pojke50 Flicka
Det förväntade värdet räknas ut med hjälp av följande formel: 32
Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är 4,69 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 5%. Observerat p-värde: 0.03 (Excel ger oss detta värde) Slutsats? 33
34
I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att vi pga slumpen observerar ett värde som är minst lika avvikande som 4,69 (om nollhypotesen är sann) = 0.03 Tolkning: Under antagandet att det inte finns något samband så är det bara 3% chans att få det resultat som vi fått. Vi har definierat en osannolik händelse som något som inträffar mer sällan än 5%. Detta är alltså en osannolik händelse… 35
Eftersom p-värdet = 0,03 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det föreligger ett samband mellan kön och inställning till flytt. Eller, det föreligger en signifikant skillnad inställning mellan pojkar och flickor Eller, vi har empiriskt stöd för att det föreligger… 36
Exempel 2: 100 slumpmässigt utvalda studenter (50 kvinnor och 50 män) blev tillfrågade om de har Guldkort på IKSU 37
JaNej Man1040 Kvinna1535 Observerad tabell: Ja = student har Guldkort Nej = studenten har inte Guldkort 38
Nollhypotes: Mothypotes: 39
JaNej Man50 Kvinna Förväntad tabell: χ obs 2 = 40
Vi observerar χ obs 2 = 1,33 Är 1,33 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: 0,248 Slutsats: Vi har inte fått en osannolik händelse och kan därmed inte förkasta nollhypotesen. 41
Eftersom p-värdet = 0,248 är större än 0.05(=α) så kan vi inte förkasta hypotesen. Dvs det är inte statistiskt säkerställt att det är finns ett samband mellan kön och innehav av Guldkort på IKSU. Eller, det föreligger ingen signifikant skillnad i innehav av guldkort mellan kvinnor och män. Eller, vi har inget empiriskt stöd för att det förel… 42
Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk. 43
Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: a)Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? b)P-värdet blev Vad drar ni för slutsats? Hur ofta man känner sig stressad ekonom socionom Tot. Aldrig Ibland Ofta Totalt
Tumregel för Chi2-test För att man ska kunna lita på resultatet från ett Chi2- test så krävs det att den förväntade tabellen upp- fyller vissa krav 1.Medelvärdet av de förväntade värdena ska vara större än 5 och inget värde får vara mindre än 1. 2.I en 2*2-tabell så krävs det att alla förväntade värden är större än 5 Åtgärd: Slå ihop klasser! 45
Samband mellan variabler mätta på kvotnivå 46
Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. OBS! Hög korrelation är inget bevis för kausalt samband mellan variablerna. 47
Y X r = -1 Y X r = 0 Y X r = 1 Y X r = -0.8 Y X r = 0 Y X r = 0.8 Exempel på korrelationer… 48
Mer korrelation… 49
Sambandet mellan ålder och yrkeserfarenhet är linjärt samt starkt positivt (när den ena variabeln ökar så ökar också den andra variabeln) Korrelationen mellan ålder och yrkeserfarenhet är +0,93 50