Presentation laddar. Vänta.

Presentation laddar. Vänta.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Liknande presentationer


En presentation över ämnet: "Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband."— Presentationens avskrift:

1 Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient

2 population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer

3 Exempel: 20 personers ålder noterades: Descriptive Statistics: Ålder Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder 20 23,850 1,694 21,000 22,250 24,000 25,000 27,000

4 population Population: Socionomstudenter, Umeå Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer INFERENS = Om man vet att medelvärdet i stickprovet är 23,85, hur bra är denna gissning av det sanna medelvärdet i hela populationen? Medelåldern av de 20 personerna är år Sanna medelåldern (Okänt)

5 23,85 är en skattning (gissning) av den sanna medelåldern bland socionomstudenterna i Umeå. Hur bra är denna gissning? Vilka faktorer påverkar precisionen på skattningen?

6 Konfidensintervall För att åskådliggöra osäkerheten i en skattningen så bildar man ofta s.k konfidensitervall Konfidensintervall är ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till:

7 Man säger att den statistiska felmarginalen är på 0,79 år. Dvs, vi kan vara ganska säkra (95%) på att den sanna medel-åldern i populationen ligger mellan 23,06 och 24,64 år. Detta eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen. (Ett 99%-igt kfiv skulle i detta exempel bli: (22,77; 24,93))

8 Hypotesprövning

9 Test av hypoteser - intro Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Har män högre lön än kvinnor? Finns det något samband mellan män och kvinnor när det gäller deras val av frukost? Finns det något samband mellan kön och innehav av Guldkort på IKSU bland studenterna på Umu? etc.

10 Hypotetisk-Deduktiv metod Hypotetisk-deduktiv metod är en vetenskaplig metod som anses beskriva hur empiriska vetenskaper fungerar. En av de första personer att beskriva denna metod var vetenskapsteoretikern Karl Popper ( ). Popper underströk falsifierbarhet som grunden för vetenskaplig verksamhet.

11 Dvs, Popper ansåg att en hypotes (utsaga) bara är vetenskaplig ifall den - är falsifierbar - har bekräftats av någon slags observation. (Falsifierbar = Det ska gå att beskriva sammanhang då teorin är falsk för att man ska kunna bevisa att den är sann.)

12 Den hypotetisk-deduktiva metoden innebär: 1.Att formulera en hypotes (nollhypotes). 2. Att härleda konsekvenser som logiskt måste följa av hypotesen. 3. Att undersöka om dessa konsekvenser stämmer överens med verkligheten.

13 Om man hittar konsekvenser som inte överens- stämmer med verkligheten så måste hypotesen förkastas (falsifieras), dvs den har motbevisats. (Man har alltså bevisat att mothypotesen är sann.) Konsekvenser som visar sig stämma med verklig- heten sägs stärka hypotesen, men man kan inte bevisa dess riktighet. Detta eftersom man inte kan utesluta att någon annan senare lyckas komma med ett försök som ger negativt resultat

14 Exempel: Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Vi har bevisat att alla svanar är inte vita. Hypotes: Alla svanar är vita. Konsekvens: Om vi ser en svan Så måste den vara vit. Observation: Svanen är vit. Slutsats: Vi kan inte förkasta hypotesen. Hypotesen är stärkt, men vi har inte bevisat att den är sann!

15 Motsägelsebevis Inom statistisk hypotesprövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.

16 Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar om sin inställning till att flytta ifrån staden. Man fann då att 10% av de 50 pojkarna i materialet var positiva till flytt, medan motsvarande siffra för flickorna var 25%.

17 Hypotes: Det finns inget samband mellan flickor /pojkar vad gäller deras inställning till att flytta. Konskvens: Om hypotesen är sann så borde andelen som är positiva till flytt vara lika stora bland pojkarna som bland flickorna. Fråga: Är det i stickprovet en osannolikt stor skillnad mellan pojkar och flickors inställning till flytt, om det i populationen inte finns någon skillnad?

18 Teststatistika Inom statistisk hypotesprövning uttrycker vi konsekvenserna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen.

19 Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 5%. Signifikansnivån kan också kallas för felrisk. ( Vanliga signifikansnivåer är 5%, 1%, 0.1%)

20 20 p-värdet P-värdet talar om hur sannolik vår observation är om nollhypotesen är sann, eller mer korrekt: Ett p-värde är sannolikheten att vi pga slumpen ska få ett minst lika avvikande värde från nollhypotesen som det värde vi fått. Om p-värdet är litet har vi antingen sett något som är väldigt osannolikt eller så är nollhypotesen falsk. Om p- värdet tillräckligt litet (< 0.05 eller <0.01) förkastas noll- hypotesen och det är därmed statistiskt säkerställt att nollhypotesen är falsk.

21 Tärningsexempel…

22 Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 5%, 1%, 0.1% (0.05, 0.01, 0.001) Utför testet (beräkna teststatistikan) och beräkna p-värdet. Dra slutsats genom att jämföra p-värde med signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

23 Chi2-test ( χ 2 -test) uttalas: tji-två-test Används då man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra Chitvå-test

24 Exempel: I en storstad intervjuades 150 slumpmässigt (OSU) utvalda ungdomar om sin inställning till att flytta ifrån staden. Följande resultat erhölls: positivNegativ Pojke545 Flicka2575

25 Samband mellan kön och inställning till flytt.

26 Det ser ut som att pojkarnas inställning till flytt är mer negativa jämfört med flickornas. Fråga: Är det slumpen som är orsaken till denna skillnad eller är skillnaden så pass stor så att det är statistiskt säkerställt att det finns ett samband mellan kön och inställning till flytt? PositivNegativ Pojke10%90% Flicka25%75%

27 Nollhypotes: Det finns inget samband mellan kön och inställning till flytt Mothypotes: Det finns ett samband mellan kön och inställning till flytt

28 Observerad tabell: PositivNegativ Pojke545 Flicka2575

29 Om nollhypotesen är sann så borde vi förvänta oss följande tabell, förväntad tabell: Teststatistika: PositivNegativ Pojke50 Flicka

30 Det förväntade värdet räknas ut med hjälp av följande formel:

31 Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är 4,69 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 5%. Observerat p-värde: 0.03 (Excel ger oss detta värde) Slutsats?

32 I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att vi pga slumpen observerar ett värde som är minst lika avvikande som 4,69 (om nollhypotesen är sann) = 0.03 Tolkning: Under antagandet att det inte finns något samband så är det bara 3% chans att få det resultat som vi fått. Vi har definierat en osannolik händelse som något som inträffar mer sällan än 5%. Detta är alltså en osannolik händelse…

33 Eftersom p-värdet = 0,03 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det föreligger ett samband mellan kön och inställning till flytt. Eller, det föreligger en signifikant skillnad inställning mellan pojkar och flickor

34 Exempel 2: 100 slumpmässigt utvalda studenter (50 kvinnor och 50 män) blev tillfrågade om de har Guldkort på IKSU

35 JaNej Man1040 Kvinna1535 Observerad tabell: Ja = student har Guldkort Nej = studenten har inte Guldkort

36 Nollhypotes: Mothypotes:

37 JaNej Man50 Kvinna Förväntad tabell: χ obs 2 =

38 Vi observerar χ obs 2 = 1,33 Är 1,33 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: 0,248 Slutsats: Vi har inte fått en osannolik händelse och kan därmed inte förkasta nollhypotesen.

39 Eftersom p-värdet = 0,248 är större än 0.05(=α) så kan vi inte förkasta hypotesen. Dvs det är inte statistiskt säkerställt att det är finns ett samband mellan kön och innehav av Guldkort på IKSU. Eller, det föreligger ingen signifikant skillnad i innehav av guldkort mellan kvinnor och män.

40 Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

41 Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: a)Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? b)P-värdet blev Vad drar ni för slutsats? Hur ofta man känner sig stressad ekonom socionom Tot. Aldrig Ibland Ofta Totalt60 120

42 Tumregel för Chi2-test För att man ska kunna lita på resultatet från ett Chi2- test så krävs det att den förväntade tabellen upp- fyller vissa krav 1.Medelvärdet av de förväntade värdena ska vara större än 5 och inget värde får vara mindre än 1. 2.I en 2*2-tabell så krävs det att alla förväntade värden är större än 5 Åtgärd: Slå ihop klasser!

43 Samband mellan variabler mätta på kvotnivå

44 Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot/intervall- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan ålder och yrkeserfarenhet är 0,93 OBS. Hög korrelation är inget bevis för kausalt samband mellan variablerna.

45 SLUT! Lycka till med era egna analyser!


Ladda ner ppt "Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband."

Liknande presentationer


Google-annonser