INFERENS & SAMBAND
population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer
Exempel: Descriptive Statistics: Resultat Variable N Mean StDev Minimum Q1 Median Q3 Maximum Range Resultat 10 25,90 8,95 14,00 18,75 23,50 35,50 39,00 25,00 10 personers tentamensresultat noterades till: 20, 25, 22, 35, 15, 14, 22, 30, 37, 39
population Population: Alla som skrev tentan (Antag att antalet är stort) Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer INFERENS = Om man vet att medelvärdet i stickprovet är 25.9, hur bra är denna gissning av det sanna medelvärdet? De 10 personerna fick i medeltal 25.9 poäng på tentan Sanna medelvärdet (Okänt)
Konfidensintervall Det är svårt att ”träffa mitt i prick” och därför används konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till:
Man säger att den statistiska felmarginalen är på 6.4 poäng. Dvs, vi kan vara ganska säkra på att det sanna medel- värdet i populationen ligger mellan 19.5 och 32.3 poäng. Detta eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.
Samband Forts. Exempel Fråga: Finns det någon variabel som skulle kunna förklara variationen i tentamensresultat? Man skulle t.ex. kunna undersöka om det finns ett samband mellan tentamens-resultat och genomsnittligt antal timmar per dag som man studerat.
Person ABCDEFGHIJ Timmar/ Dag Resultat
Spridningsdiagram (Scatterplot) Ett spridningsdiagram är en grafisk beskrivning av samband mellan två variabler där varje punkt representerar en individ/enhet Lodrät axel (y-axeln) - beroende variabel Vågrät axel (x-axeln) - förklarande variabel Detta samband går att sammanfatta i ett mått, och det är korrelationskoefficienten
Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvantitativa variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan antal timmar per vecka och tentamensresultat i vårt exempel är 0,92.
Test av samband mellan två kvalitativa variabler Vi kan använda ett Chitvå-test ( χ 2 -test ) när vi vill ta reda på om två kvalitativa variabler är beroende av varandra. En kvalitativ variabel är en icke-numerisk variabel. T ex kön, civilstånd, gymnasieprogram, inställning till kurslitteraturen…
Exempel: En studie har gjorts för att undersöka om det finns ett samband mellan kön och frukostvanor. 100 personer deltog i studien. Följande resultat erhölls: Äterfrukost JANEJ Kön Kvinna5010 Man2515
Test av hypoteser Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Finns det någon skillnad mellan män och kvinnor när det gäller frukostvanor? Har män högre lön än kvinnor? osv…
HYPOTES-DEDUKTIVA METODEN HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)
LOGISKT GILTIGA SLUTSATSER (EXEMPEL) Giltig Inte Giltig Hypotes: Djuret är en häst. Utsaga: Om det är en häst så måste djuret ha fyra ben. Observation: Djuret har inte fyra ben. Slutsats: Förkasta hypotesen. Det är inte en häst. Hypotes: Djuret är en häst. Utsaga: Om det är en häst så måste djuret ha fyra ben. Observation: Djuret har fyra ben. Slutsats: Hypotesen är sann. Det är en häst. Ej giltig slutsats. Det kan vara ett annat fyrbent djur!
Motsägelsebevis Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.
Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 0,05 ( Vanliga signifikansnivåer är 0.05, 0.01, 0.10)
Teststatistika Inom statistisk hypotesprövning uttrycker vi utsagorna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov.
Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan drar vi ett stickprov och räknar ut värdet på teststatistikan.Får vi ett osannolikt värde förkastar vi hypotesen.
22 p-värdet Ett p-värde är sannolikheten att, om nollhypotesen är sann, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är nollhypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.
Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, (Hur säkra vill vi vara?) Utför testet (beräkna teststatistikan) och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )
χ 2 -test testar om det finns ett samband mellan nominal- och/eller ordinal-skalevariabler Exempel: En studie har gjorts för att undersöka om det finns ett samband mellan kön och frukostvanor. 100 personer deltog i studien. Följande resultat erhölls: Äterfrukost JANEJ Kön Kvinna5010 Man2515
Nollhypotes: Det finns ingen samband mellan kön och frukostvanor. Mothypotes: Det finns ett samband mellan kön och frukostvanor.
Äterfrukost JANEJ Kön Kvinna5010 Man2515 Observerad tabell:
Äterfrukost JANEJ Kön Kvinna Man Förväntad tabell: Teststatistika:
Det förväntade värdet räknas ut med hjälp av följande formel:
Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är 5.56 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 0,05. Observerat p-värde: Slutsats?
I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att χ obs 2 =5.56 eller ännu större än 5.56 (om nollhypotesen är sann) = Tolkning: Om det inte finns något samband mellan kön och frukostvanor så är det 1.8% chans att få det resultat som vi fått. Det är inte så sannolikt…
Eftersom p-värdet = 0,018 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det är skillnad mellan andelen som äter frukost bland kvinnor och män. Eller det finns en signifikant skillnad mellan andelen som äter frukost bland kvinnor och män.
Exempel 2 Antag att frukostvanorna såg ut så här bland de 100 studenterna. Kan vi även här säga att det finns ett samband mellan kön och frukostvanor?
Äterfrukost JANEJ Kön Kvinna5010 Man3010 Observerad tabell:
Äterfrukost JANEJ Kön Kvinna60 Man Förväntad tabell: χ obs 2 =
Vi observerar χ obs 2 = Är så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: Slutsats:Vi kan inte förkasta nollhypotesen. OBS! Vi har därmed inte bevisat att den är sann!
Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.
Hitintills har vi tittat på en korstabell där varje variabel bara har två värden (JA/NEJ). Man kan använda Chi2 test även där variablerna kan ha flera värden. I dator- övningen kommer ni att titta på: Hur skulle ni formulera nollhypotesen och mothypotesen här? Antal av KönKön Hur ofta upplever du stress i arbetet?KvinnaManTotalt Sällan/aldrig91120 Ibland8513 Ofta13417 Totalt302050
Exempel: Finns det samband mellan lön och kön? Kön Lön MänKvinnor Totalt80
Tabellen indikerar lönediskriminering, men tabellen tar ej hänsyn till den bakomliggande variabeln utbildning. Gör en trevägsindelad tabell för variablerna! Kön Lön Utbildning
Finns det samband mellan lön och kön? HögutbildadLågutbildad Lön MänKvinnorMänKvinnor (22%)2(20%)30(86%)58(83%) (44%)5(50%)5(14%)10(14%) (33%)3(30%)0(0%)2(3%) Totalt 45(100%)10(100%)35(100%)80(100%)
population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer
När det gäller analysen av era enkäter måste ni fundera på: –Vilka tabeller och diagram som ska användas –Vilka central och spridningsmått som ska användas. –Vilka samband som ska presenteras –Vilka test ska göras –Hur resultatet skall redovisas
Lycka till!