Presentation laddar. Vänta.

Presentation laddar. Vänta.

INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

Liknande presentationer


En presentation över ämnet: "INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ."— Presentationens avskrift:

1 INFERENS OCH SAMBAND

2 Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/ Dag 4567535788 Resultat 20252235151422303739

3 Samband mellan timmar per vecka och tentamensresultat

4 Spridningsdiagram (Scatterplot) Ett spridningsdiagram är en grafisk beskrivning av samband mellan två variabler där varje punkt representerar en individ/enhet Lodrät axel (y-axeln) - beroende variabel Vågrät axel (x-axeln) - förklarande variabel

5

6 Korrelationskoefficienten Korrelationskoefficienten r är ett mått på linjärt samband mellan två kvantitativa variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband mellan x och y som ej är linjärt. Korrelationen mellan antal timmar per vecka och tentamensresultat i vårt exempel är 0,92.

7 Exempel En studie har gjorts för att undersöka om det finns ett samband mellan socialbidrag och alkholmissbruk. 400 personer deltog i studien. Följande resultat erhölls: Socialbidrag JANEJ Alkohol missbruk JA5040 NEJ150160 Totalt200

8 Finns det samband mellan alkoholmissbruk och socialbidrag? Socialbidrag JANEJ Alkohol missbruk JA50/200= (25%) 40/200= (20%) NEJ 150 (75%) 180 (80%) Totalt200

9

10

11

12 Test av samband mellan två kvalitativa variabler Vi kan använda ett Chitvå-test när vi vill ta reda på om två variabler är oberoende av varandra. Vi vill testa: Hypotes: Andelen personer med alkoholmissbruk är lika om man har socialbidrag eller inte.

13 Test av hypoteser Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Är andelen personer med alkoholmissbruk lika om man har socialbidrag eller inte? Är alla kaffesorter lika populära? Finns det någon skillnad mellan män och kvinnor när det gäller val av yrke? Har män högre lön än kvinnor?

14 HYPOTETISK-DEDUKTIV METOD HypotesUtsaga Observation Tankevärld Verklighet 1 3 2 1 Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)

15 Logiskt giltiga slutsatser (exempel) Giltig Inte Giltig Hypotes: Det regnar. Utsaga: Om det regnar blir det blött på marken. Observation: Det är inte blött på marken. Slutsats: Det regnar inte. Hypotes: Det regnar. Utsaga: Om det regnar blir det blött på marken. Observation: Det är blött på marken. Slutsats: Det regnar. Ej giltig slutsats. Det kan vara blött på marken p g a andra orsaker.

16 Logiskt giltiga slutsatser (exempel) Giltig Inte Giltig Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar en person som pga en olycka bara har 9 fingrar. Slutsats: Inte alla människor har 10 fingrar. Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar 240 personer som alla har 10 fingrar. Slutsats: Alla människor har 10 fingrar. Ej giltig slutsats. Trots att jag inte (hittills) har träffat någon med fler eller färre fingrar betyder inte det att sådana personer inte existerar.

17 Motsägelsebevis Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser (t ex en torr mark är en omöjlig händelse vid regn, d v s om marken är torr förkastas hypotesen ”Det regnar.”) utan motsägelser i form av ”osannolika händelser”.

18 Osannolik händelse Antag att vi misstänker att andelen personer med alkoholmissbruk är olika för de med socialbidrag och de som inte har socialbidrag och att vi vill testa denna hypotes. Nollhypotes: Andelen personer med alkoholmissbruk är lika om man har socialbidrag eller inte (inget samband) Utsaga: Om andelen personer med alkoholmissbruk är lika om man har socialbidrag eller inte så finns ingen eller endast en liten skillnad i en urvalsundersökning i andelen alkoholmissbrukare i de två grupperna. Om hypotesen är sann så är det en osannolik händelse att i en urvalsundersökning att observera en stor skillnad i andelen alkoholmissbrukare i de två grupperna.

19 Exempel Vid en marknadsundersökning av fyra kaffesorter deltog 100 personer. Var och en fick provsmaka de fyra märkena i ett blindtest och säga vilken av sorterna de tycket var godast. Resultatet av testet blev följande: Sort:EllipsGexusLuberLöflia Antal pers26281630

20 Tyder försöksresultatet på att någon eller några sorter är populärare än andra, eller är alla likvärdiga? I statistiska termer kan vi formulera problemet så här: Nollhypotes: Alla kaffesorter är lika populära Mothypotes: Alla kaffesorter är inte lika populära

21 Om nollhypotesen är sann borde vi förvänta oss följande utfall av försöket: Kan vi uttala oss om huruvida nollhypotesen är sann eller ej? Sort:EllipsGexusLuberLöflia Antal pers

22 Ett sätt att mäta hur mycket den observerade tabellen avviker från den förväntade tabellen är genom att titta på skillnaderna:

23 Problem dock att avvikelsen mellan 10 och 20 är relativt större än mellan 10000 och 10010. Hur ska vi ta hänsyn till det? Dela med förväntade värdet och bilda en teststatistika :

24 Om vår nollhypotes är sann borde vara nära 0. Fråga:Är 4.64 så långt i från 0 att vi kan förkasta vår hypotes? Är detta en osannolik händelse?

25 Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån till 0,05 ( Vanliga signifikansnivåer är 0.05, 0.01, 0.10)

26 Statistikprogrammen (Excel, SPSS, Minitab…) beräknar ett s k P-värde för testet. P-värdet uttrycker sannolikheten att observera vårt värde eller ett extremare förutsatt att hypotesen är sann. Vi förkastar hypotesen om P-värdet är mindre än 0.05 (om signifikansnivå är 0,05).

27 I vårt exempel så tolkar man p-värdet så här: P-värde = Sannolikheten att = 4.64 eller ännu större än 4.64 (om nollhypotesen är sann) = 0.200 Det är alltså 20% chans att få det resultat som vi fått om alla kaffesorter är lika populära. Det är inte så osannolikt…

28 När vi testade hypotesen: Alla kaffesorterna är lika populära. så erhöll vi ett p-värde på 0.20 vilket är större än 0.05. Detta gör att vi inte kan förkasta hypotesen. OBS! Vi har inte bevisat att den är sann!

29 Teststatistika Inom statistisk hypotesprövning uttrycker vi utsagorna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov.

30 Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan drar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen. I exemplet ovan var teststatistika.

31 31 P-VÄRDET Ett p-värde är sannolikheten att, om nollhypotesen är sann, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är hypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.

32 Vi vill testa: Nollhypotes: Andelen personer med alkoholmissbruk är lika för de som har socialbidrag och de som inte har socialbidrag. (inget samband) Mothypotes: Andelen personer med alkoholmissbruk är olika för de med socialbidrag och de som inte har socialbidrag.

33 Socialbidrag JANEJ Alkohol missbruk JA5040 NEJ150160 Totalt200

34 FörväntadSocialbidrag tabellJANEJ Alkohol missbruk JA90*200/400 =45 90*200/400 =45 NEJ 310*200/400 =155 310*200/400 =155 Vi räknar ut de förväntade värdena om nollhypotesen är sann och gör ett Chi-två test:

35 Vi jämför den observerade tabellen med den förväntade. Om tabellerna skiljer sig mycket från varandra så förkastar vi nollhypotesen. Då tror vi att det finns något samband.

36 Om nollhypotesen är sann borde vara nära 0. Är 1.43 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Observerat p-värde: 0,23 Slutsats?

37 Antag att vårt data hade sett ut så här med 385 personer: Observerad tabell: Förväntad tabell: Socialbidrag JANEJ Alkohol missbruk JA5025 NEJ 150160 Tot200185 Socialbidrag JANEJ Alkohol missbruk JA39.036.0 NEJ 161.0149.0

38

39 Om nollhypotesen är sann borde vara nära 0. Är 8.08 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Observerat p-värde: 0,004 Slutsats?

40 Eftersom p-värdet = 0,004 < 0.05 så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det är skillnad mellan andelen alkoholmissbrukare för de med socialbidrag och de som inte har socialbidrag. Eller det finns en signifikant skillnad mellan andelen alkohol-missbrukare för de med socialbidrag och de som inte har socialbidrag..

41 Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, 0.001 (Hur säkra vill vi vara?) Utför testet och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

42 Finns det samband mellan lön och kön? Kön Lön MänKvinnor 10 000-19 999 4060 20 000-29 999 2515 30 000-39 999 155 Totalt80

43 Tabellen indikerar lönediskriminering, men tabellen tar ej hänsyn till den bakomliggande variabeln utbildning. Gör en trevägsindelad tabell för variablerna! Kön Lön Utbildning

44 Finns det samband mellan lön och kön? HögutbildadLågutbildad Lön MänKvinnorMänKvinnor 10 000-19 999 10(22%)2(20%)30(86%)58(83%) 20 000-29 999 20(44%)5(50%)5(14%)10(14%) 30 000-39 999 15(33%)3(30%)0(0%)2(3%) Totalt 45(100%)10(100%)35(100%)80(100%)

45 Fler män är högutbildade därför bättre löner. Vi har bland högutbildade samma fördelning Vi har bland lågutbildade samma fördelning

46 Hitintills har vi tittat på en korstabell där varje variabel bara har två värden (JA/NEJ). Man kan använda Chi2 test även där variablerna kan ha flera värden. I dataövningen kommer ni att titta på: Hur skulle ni formulera nollhypotesen och mothypotesen här?

47 Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

48 Punktskattning och konfidensintervall Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag. Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna. Vi kan då skatta andelen i populationen med 1200/3000=0.4. Hur bra är denna skattning ?

49 Det är svårt att ”träffa mitt i prick” och därför används konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss säkerhet (95%, 99% ).

50 Åter till exemplet: Vi såg att stickprovproportionen blev 0.40, dvs Ett 95%-igt konfidensintervall blir då

51 Den statistiska felmarginalen är då 1.8 procentenheter. Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

52 Lite repetition… Population: Grupp av individer vi vill undersöka. Urvalsundersökning: En delmängd av populationen väljs ut och undersöks. Om slumpmässigt urval kan och vill vi generalisera till populationen!

53 Analys Beskrivande statistik –Tabeller –Diagram –Beskrivande mått VIKTIG!!!!! Inferens –Punktskattning –Konfidensintervall –Test

54 När det gäller analysen av era enkäter måste ni fundera på: –Vilka tabeller och diagram som ska användas –Vilka central och spridningsmått som ska användas. –Vilka samband som ska presenteras –Vilka test ska göras –Hur resultatet skall redovisas

55 Lycka till!


Ladda ner ppt "INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ."

Liknande presentationer


Google-annonser