Presentation laddar. Vänta.

Presentation laddar. Vänta.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning

Liknande presentationer


En presentation över ämnet: "Samband & Inferens Konfidensintervall Statistisk hypotesprövning"— Presentationens avskrift:

1 Samband & Inferens Konfidensintervall Statistisk hypotesprövning
Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler Chi2-test Samband mellan kvot-varibaler Korrelationskoefficient

2 Population Stickprov, urval population Data, observationer INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov

3 Exempel: 20 personers ålder noterades: Descriptive Statistics: Ålder
Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder ,850 1, , , , , ,000

4 Socionomstudenter, Umeå
Population: Socionomstudenter, Umeå Sanna medelåldern (Okänt) Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer population Medelåldern av de 20 personerna är år INFERENS = Om man vet att medelvärdet i stickprovet är 23,85, hur bra är denna gissning av det sanna medelvärdet i hela populationen?

5 23,85 är en skattning (gissning) av den sanna medelåldern bland socionomstudenterna i Umeå.
Hur bra är denna gissning? Vilka faktorer påverkar precisionen på skattningen?

6 Konfidensintervall För att åskådliggöra osäkerheten i en skattningen så bildar man ofta s.k konfidensitervall Konfidensintervall är ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till:

7 Man säger att den statistiska felmarginalen är på 0,79 år.
Dvs, vi kan vara ganska säkra (95%) på att den sanna medel-åldern i populationen ligger mellan 23,06 och 24,64 år. Detta eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen. (Ett 99%-igt kfiv skulle i detta exempel bli: (22,77; 24,93))

8 Hypotesprövning

9 Test av hypoteser - intro
Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Har män högre lön än kvinnor? Finns det något samband mellan män och kvinnor när det gäller deras val av frukost? Finns det något samband mellan kön och innehav av Guldkort på IKSU bland studenterna på Umu? etc.

10 Hypotetisk-Deduktiv metod
Hypotetisk-deduktiv metod är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva denna metod var vetenskapsteoretikern Karl Popper ( ). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet.

11 Dvs, Popper ansåg att en hypotes (utsaga) bara är vetenskaplig ifall den - är falsifierbar - har bekräftats av någon slags observation. (Falsifierbar = Det ska gå att beskriva sammanhang då teorin är falsk för att man ska kunna bevisa att den är sann.)

12 Den hypotetisk-deduktiva metoden innebär:
Att formulera en hypotes (nollhypotes). 2. Att härleda konsekvenser som logiskt måste följa av hypotesen. 3. Att undersöka om dessa konsekvenser stämmer överens med verkligheten.

13 Om man hittar konsekvenser som inte överens-stämmer med verkligheten så måste hypotesen förkastas (falsifieras), dvs den har motbevisats. (Man har alltså bevisat att mothypotesen är sann.) Konsekvenser som visar sig stämma med verklig-heten sägs stärka hypotesen, men man kan inte bevisa dess riktighet. Detta eftersom man inte kan utesluta att någon annan senare lyckas komma med ett försök som ger negativt resultat

14 Exempel: Hypotes: Alla svanar är vita.
Konsekvens: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Vi har bevisat att alla svanar är inte vita. Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan Så måste den vara vit. Observation: Svanen är vit. Slutsats: Vi kan inte förkasta hypotesen. Hypotesen är stärkt, men vi har inte bevisat att den är sann!

15 Motsägelsebevis Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.

16 Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar om sin inställning till att flytta ifrån staden. Man fann då att 10% av de 50 pojkarna i materialet var positiva till flytt, medan motsvarande siffra för flickorna var 25%.

17 Hypotes: Det finns inget samband mellan flickor /pojkar vad gäller deras inställning till att flytta. Konskvens: Om hypotesen är sann så borde andelen som är positiva till flytt vara lika stora bland pojkarna som bland flickorna. Fråga: Är det i stickprovet en osannolikt stor skillnad mellan pojkar och flickors inställning till flytt, om det i populationen inte finns någon skillnad?

18 Teststatistika Inom statistisk hypotesprövning uttrycker vi konsekvenserna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen.

19 Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 5%. Signifikansnivån kan också kallas för felrisk. ( Vanliga signifikansnivåer är 5%, 1%, 0.1%)

20 p-värdet P-värdet talar om hur sannolik vår observation är om nollhypotesen är sann, eller mer korrekt: Ett p-värde är sannolikheten att vi pga slumpen ska få ett minst lika avvikande värde från nollhypotesen som det värde vi fått. Om p-värdet är litet har vi antingen sett något som är väldigt osannolikt eller så är nollhypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas noll-hypotesen och det är därmed statistiskt säkerställt att nollhypotesen är falsk.

21 Tärningsexempel…

22 Hypotesprövning: Steg för steg
Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 5%, 1%, 0.1% (0.05, 0.01, 0.001) • Utför testet (beräkna teststatistikan) och beräkna p-värdet. • Dra slutsats genom att jämföra p-värde med signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

23 Chi2-test ( χ2-test) uttalas: tji-två-test
Används då man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra Chitvå-test

24 Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar om sin inställning till att flytta ifrån staden. Följande resultat erhölls: positiv Negativ Pojke 5 45 Flicka 25 75

25 Samband mellan kön och inställning till flytt.

26 Det ser ut som att pojkarnas inställning till flytt är mer negativa jämfört med flickornas.
Fråga: Är det slumpen som är orsaken till denna skillnad eller är skillnaden så pass stor så att det är statistiskt säkerställt att det finns ett samband mellan kön och inställning till flytt? Positiv Negativ Pojke 10% 90% Flicka 25% 75%

27 Nollhypotes: Det finns inget samband mellan kön och inställning till flytt
Mothypotes: Det finns ett samband mellan kön och inställning till flytt

28 Observerad tabell: Positiv Negativ Pojke 5 45 Flicka 25 75

29 Om nollhypotesen är sann så borde vi förvänta
oss följande tabell, förväntad tabell: Positiv Negativ Pojke 50 Flicka 100 30 120 150 Teststatistika:

30 Det förväntade värdet räknas ut med hjälp av följande formel:

31 Om nollhypotesen är sann borde χobs2 vara nära 0.
Är 4,69 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 5%. Observerat p-värde: 0.03 (Excel ger oss detta värde) Slutsats?

32 I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att vi pga slumpen observerar ett värde som är minst lika avvikande som 4,69 (om nollhypotesen är sann) = 0.03 Tolkning: Under antagandet att det inte finns något samband så är det bara 3% chans att få det resultat som vi fått. Vi har definierat en osannolik händelse som något som inträffar mer sällan än 5%. Detta är alltså en osannolik händelse…

33 Eftersom p-värdet = 0,03 är mindre än 0
Eftersom p-värdet = 0,03 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det föreligger ett samband mellan kön och inställning till flytt. Eller, det föreligger en signifikant skillnad inställning mellan pojkar och flickor

34 Exempel 2: 100 slumpmässigt utvalda studenter (50 kvinnor och 50 män) blev tillfrågade om de har Guldkort på IKSU

35 Observerad tabell: Ja Nej Man 10 40 Kvinna 15 35
Ja = student har Guldkort Nej = studenten har inte Guldkort

36 Nollhypotes: Mothypotes:

37 Förväntad tabell: Ja Nej Man 50 Kvinna 25 75 100 χobs2=

38 Vi observerar χobs2 = 1,33 Är 1,33 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: 0,248 Slutsats: Vi har inte fått en osannolik händelse och kan därmed inte förkasta nollhypotesen.

39 Eftersom p-värdet = 0,248 är större än 0
Eftersom p-värdet = 0,248 är större än 0.05(=α) så kan vi inte förkasta hypotesen. Dvs det är inte statistiskt säkerställt att det är finns ett samband mellan kön och innehav av Guldkort på IKSU. Eller, det föreligger ingen signifikant skillnad i innehav av guldkort mellan kvinnor och män.

40 Två typer av fel Typ I fel: Förkasta nollhypotesen när den är sann.
Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

41 P-värdet blev 0.54. Vad drar ni för slutsats?
Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: Hur ofta man känner sig stressad ekonom socionom Tot. Aldrig 10 6 16 Ibland 40 42 82 Ofta 12 22 Totalt 60 120 Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? P-värdet blev Vad drar ni för slutsats?

42 Tumregel för Chi2-test För att man ska kunna lita på resultatet från ett Chi2-test så krävs det att den förväntade tabellen upp-fyller vissa krav Medelvärdet av de förväntade värdena ska vara större än 5 och inget värde får vara mindre än 1. I en 2*2-tabell så krävs det att alla förväntade värden är större än 5 Åtgärd: Slå ihop klasser!

43 Samband mellan variabler mätta på kvotnivå

44 Korrelationskoefficienten
Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot/intervall- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan ålder och yrkeserfarenhet är 0,93 OBS. Hög korrelation är inget bevis för kausalt samband mellan variablerna.

45 Lycka till med era egna analyser!
SLUT! Lycka till med era egna analyser!


Ladda ner ppt "Samband & Inferens Konfidensintervall Statistisk hypotesprövning"

Liknande presentationer


Google-annonser