Presentation laddar. Vänta.

Presentation laddar. Vänta.

1 Kvantitativa forskningsmetoder I Föreläsning 2 Tom Wikman Tfn: 06-3247 250 Rum F 624, vån 6.

Liknande presentationer


En presentation över ämnet: "1 Kvantitativa forskningsmetoder I Föreläsning 2 Tom Wikman Tfn: 06-3247 250 Rum F 624, vån 6."— Presentationens avskrift:

1 1 Kvantitativa forskningsmetoder I Föreläsning 2 Tom Wikman Tfn: Rum F 624, vån 6

2 2 Kort repetition Variabel: egenskap som undersöks Nominalskala: frekvenser, antal case per grupp, kan endast räknas # Ordinalskala: samband baserade på rangordning, kan rangordnas <> Intervall: samband baserade på mätningstalen, kan addreras, ingen nollpunkt, jämna skalsteg + - Kvotskala: samband baserade på mätningstalen, kan beräknas matematiskt * / + -

3 3 Centralmått

4 4 Medelvärde (mean) aritmetisk medelpunkt, centralmått som ger centraltendensen dvs fördelningens balanseringspunkt. summan av alla värden dividerat med antalet observationer Formel observationerna heter x1, x2, x3,..xn summan av alla x, från i till n, börjande med x1 (i = 1) Medelvärdet beräknas enligt: summan av alla värden dividerat med antalet observationer Sigma=summa

5 5 Exempel: medelvärde Medeltalet för skolprestation (enligt modersmålvitsord) hos pojkar (n = 18) i en 5:e klass = = ,28

6 6 Md Median det mittersta värdet då alla värden har ordnats i storleksordning det mittersta värdet Md = Md = 7,5 n=17 n=18 Om antalet är udda=det mittersta värdet Om antalet är jämnt=medelvärdet av de två mittersta värdena

7 7 T Typvärde (mode) det vanligaste värdet Värden T=7

8 8 Utskrift från SPSS Analyze > Descriptive Statistics > Frequencies antal valida observationer antal observationer som saknas medeltal median typvärde summa Värden som variablen kan ha Frekvens=antal Procentuell andel Kumulativ procent

9 9 Normalfördelning, hyptesprövning och sannolikhet

10 10 Normalfördelning Normalfördelningskurvan, ”Gausskurvan” 68.3 % av fördelningen ligger mellan -1 och +1 standardavvikelser 95.4 % av fördelningen ligger mellan -2 och +2 standardavvikelser 99.7 % av fördelningen ligger mellan -3 och +3 standardavvikelser Undersökningsvariabler är ofta normalfördelade vilket gör att principerna med normalfördelning kan användas då man utför statistiska test.

11 11 EXEMPEL Vi har gjort ett matematiktest bland en stor grupp elever, det högsta möjliga poängtalet är 24. Vi räknar ut medeltalet och finner att det är 12 poäng och att standardavvikelsen är 3. 95,4 % 99,7 % Medelvärde 68.3 % 34

12 12 Alla variabler är inte normalfördelade. Fördelningskurvorna kan ha olika utseende: Negativ skevhet (skewness) (svansen mot det negativa hållet) Positiv skevhet (svansen mot det positiva hållet) Hög toppighet (kurtosis) Låg toppighet

13 13 Sannolikhet Hur vet man att det resultat man får inte beror på slumpen? Klassisk sannolikhetsdefinition = antal gynsamma utfall antal möjliga utfall Ex. Sannolikheten för att en slumpmässigt vald veckodag är en tisdag? = 1/7 Sampelstorleken (slumpmässigt urval) påverkar sannolikheten för att resultatet motsvarar verkligheten. Ju större sampel desto större sannolikhet dvs mindre utrymmer för slumpen. => använd signifikanstest för att ta reda på slumpens andel!

14 14 Hypotes Om vi vill kunna dra slutsatser t.ex. om två grupper skiljer sig från varandra utifrån data insamlade mha representativa stickprov kan vi göra en analys kallad hypotesprövning eller signifikanstest för att ta reda på om det finns en sann skillnad mellan grupperna. Det finns fler olika metoder (test) som man kan använda beroende av variabeltyp. Exempel Finns det en skillnad mellan finländska män och kvinnors inställning till aga som uppfostringsmetod? Väljer slumpmässigt ut 25 män och 25 kvinnor. Är skillnaden som finns mellan män och kvinnor statistiskt signifikant - är den sann och kan generaliseras att gälla hela populationen eller kan den ha uppkommit pga slumpen?

15 15 Exempel på noll-hypoteser och mot-hypoteser H0 Det finns ingen skillnad mellan grupperna A och B (skillnaden beror på slumpen) H1 Det finns en skillnad mellan grupperna A och B (skillnaden är signifikant och beror inte på slumpen) H0 Det finns inget samband mellan variablerna x och y H1 Det finns ett samband mellan variablerna x och y AB = AB = XYXY

16 16 Felrisk Felrisk (prob-värde), ”säkerhetsnivåer”, hur säker kan jag vara på att det finns systematiska skillnader i mitt resultat? p <.05*(med 95 % sannolikhet systematisk skillnad) p <.01**(med 99 % sannolikhet systematisk skillnad) p <.001***(med 99.9 % sannolikhet systematisk skillnad) Ju mindre skillnad det är mellan grupperna, desto större är risken att det är slumpen som har gjort att det finns en skillnad. Man räknar ut hur stor felrisken är, alltså hur stor inverkan kan slumpen ha på resultatet?

17 17 Typer av fel vid statistisk beräkning. H0 santH1 sant H0 väljs ok  -fel typ II -fel H1 väljs  -fel ok typ I - fel Typ I- fel (  -fel) handlar om att hävda ett fenomen som inte finns existerar, vanligtvis genom att välja för låg signifikansnivå. Vid 5 % signifikansnivå kan sann H0 hypotes förkastas även om den är sann. Typ II - fel (  -fel) handlar om att inte hitta ett fenomen som existerar. Orsaker är vanligen okända: (1) för låg signifikansnivå, (2) för litet sampel, eller (3) oreliabla variabler ”Oskyldigt dömd” ”På fri fot” Släpps Döms OskyldigSkyldig

18 18 En-grupps  2 test (chi-två) Med testet avgörs huruvida en företeelse förekommer mer eller mindre ofta än förväntat. De förväntade värdena kan beräknas antingen matematiskt (som medelfrekvens i ett sampel), eller enligt en tidigare studie. Kallas också goodness of fit. Man testar alltså om en observerad fördelning (ex provpoäng) avviker mer än slumpmässigt från en förväntad teoretisk fördelning (ex jämn fördelning). Variabler på NOMINAL-nivå Exempel: Eleverna i en klass (n=30) producerade teckningar kring temat sommar. Därefter kategoriserades teckningarna enligt den fenomenografiska metoden i tre kategorier A, B och C, enligt följande fördelning: Kategori n A 5 B17 C 8 Tot30

19 19 Formel för  2 O i = observerade frekvenser i = 1,......, k E i = förväntade frekvenser; i = 1,......,k De matematiskt förväntade frekvenserna blir (ifall man antar att teckningarna är jämnt fördelade i gruppen = H0), att en tredjedel av teckningarna borde ha kategoriserats i vardera kategorin. Alltså: Kategori n A 10 B10 C 10 Tot30

20 20 Gr n (O) förv. (E) (O - E)(O - E) 2 (O - E) 2 /E A ,5 B ,9 C ,4 Tot 307,8  2 =(5 – 10) 2 +(17 – 10) 2 +(8 – 10) 2 = = = O i = observerade frekvenser E i = förväntade frekvenser

21 21 Test av signifikansnivå för  2 värdet 7,8: Frihetsgrader (df) (r - 1) (antal rader minus 1), 3-1 = 2  [2]= * 7.80 > 5.99  [2]= ** 7.80 < 9.20  [2]= *** 7.80 < Slutsats: Med 95% sannolikhet (5% felrisk) kan vi säga att eleverna tecknat kategori B-teckningar mer än förväntat och kategori A och C mindre än förväntat. 7,8? 95 % *99 % ** 99,9 % ***

22 22  2 i SPSS Analyze > Nonparametric Tests > Chi Square Observerade värden Förväntade värden 22 Frihetsgrader Signifikansnivå, 2 % felrisk

23 23 Förutsättningar För att få använda  2 måste följande uppfyllas: Slumpmässigt urval Observerade och förväntade värden anges i absolut frekvens. Inga förväntade frekvenser får vara under 5.

24 24 Fler-grupps-  2 -test Exempel. I en undersökning ville man veta vem som ber aftonbön oftare, flickor eller pojkar. I en enkät besvarade 68 elever ifall de brukar be aftonbön eller ej (ja / nej) (data från Slangar & Stenbäck, 1996). Så här fördelade sig svars­responserna. FlickorPojkar Ja12 9 Nej1334 Denna design med två kolumner och två rader kallas för kontingenstabell-test eller flergrupps-  2 - test. Formeln är den samma (  2 ), däremot beräknas de förväntade värdena på annorlunda vis. Används som mått på korrelationen mellan kvalitativa variabler

25 25 Flickor Pojkar Totalt Ja Nej Totalt Flickor PojkarTotaltFörväntade värden Jaa ba + ba=(a+b) * (a+c) / n Nejc dc + d b=(a+b) * (b+d) / n Total a + c b + d n (a+b+c+d)c=(c+d) * (a+c) / n d=(c+d) * (b+d) / n FlickorPojkarTotalt Ja12/7.729/ Nej13/ / Totalt  2 = (12– 7.72) 2 + (9 – 13.28) 2 + (13 – 17.28) 2+ (34 – 29.72) 2 = = = O i = observerade frekvenser E i = förväntade frekvenser

26 26 Test av signifikansnivå: Frihetsgrader (k-1)(r - 1) = (antal kolumner minus 1) (antal rader minus 1), (2-1)(2-1) = 1  2 = 5,43  [1]= > 3.84  [1]= < 6.63  [1]= < Slutsats: fler pojkar än förväntat uppgav att de inte bad aftonbön, med en felrisk på 5%.

27 27 En-grupps t-test Med ett en-grupps t-test kan du undersöka ifall medelvärdet i ett sub-sampel skiljer sig från ett känt medelvärdet i en större population. INTERVALL/KVOT-nivå. I exemplet nedan testas en grupp 5-klassisters (N=25) läsförståelse emot den totala gruppen 5e och 6e klassister i datat (N=79; känt M=33.09) H 0 Gruppmedelvärdet (33,24) avviker inte från 33,09 H 1 Gruppmedelvärdet (33,24) avviker från 33,09

28 28 x -  o ŝ / √ n 33,24 – 33,09 4,88 / √ 25 t = = (H 0 godtas) df = n-1 = 25-1=24 Kolla i t-fördelningstabellen!t-fördelningstabellen Totala M=33.09

29 29 Oberoende t-test Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. Man antar att data är normalfördelat x-variabel: nom, ord, y-variabel: intervall, kvot Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass AKlass B Klass AKlass B x = 7.167x = 8.50 ŝ = 0.753ŝ = Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden

30 30 Klass AKlass B x = 7.167x = 8.50 ŝ = 0.753ŝ = 1.049n=6 Frihetsgrad: df = (n 1 + n 2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt2 sidigt t 0.95 [10] = t 0.95 [10] = t 0.99 [10] = t 0.99 [10] = t [10] = t [10] = 4.587

31 31 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % 2 S, 0,5 % 1 S, 0.1% │ t │ ≥ t 1 -  │ t │ ≥ t 1 -  /2 Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 -  1 -  /2  /  ”felrisken” * *** ***

32 32 Oberoende t-test i SPSS Analyze > Compare Means > Independent Samples T-Test Test ifall varianserna i grupperna är lika t-värde frihetsgrad Signifikansnivå P<.05 Medelvärdesskillnad A-B

33 33 Resultatet i tabellform: Tabell 1: Skillnader mellan prestationer i test “G” för klass A och B (Medelvärden och standardavvikeler). Klass A Klass B T-test (tvåsidigt)p-värde G7.17 (.75)8.50 (1.05) p<.05 Resultatet i text......det visade sig att klass B presterade högre än klass A i G-provet (t [10]= ; p<.05)

34 34 Beroende t-test Skiljer sig medelvärdena? Beroende t-test (paired t-test): samma grupp mäts med samma test, vid två tidpunkter, eller: samma grupp testas på två variabler. INT/KV-nivå. T.ex. har elevers skrivförmåga (mätt enligt standardiserat test 0-9 poäng) ökat från hösten-94 till våren-95? Analyze> Compare Means> Paired-Samples T Test t = d Ŝ d √ n (Oberoende t-test (independent samples t-test): olika grupper testas med samma test vid samma tidpunkt) Formel för beroende t-test

35 35 Elevernas skrivförmåga har ökat mellan 1994 och 1995 (medelvärdet för testet). Är denna ökning signifikant eller kan den bero på slumpen? Skillnaden är signifikant P<.01 Slutsats: Elevernas skrivförmåga har blivit bättre. Medelvärdesskillnaden är 0,35 poäng. Skillnaden är signifikant (P<.01).

36 36 Oberoende t-test Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. Man antar att data är normalfördelat x-variabel: nom, ord, y-variabel: intervall, kvot Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass AKlass B Klass AKlass B x = 7.167x = 8.50 ŝ = 0.753ŝ = Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden

37 37 Klass AKlass B x = 7.167x = 8.50 ŝ = 0.753ŝ = 1.049n=6 Frihetsgrad: df = (n 1 + n 2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt2 sidigt t 0.95 [10] = t 0.95 [10] = t 0.99 [10] = t 0.99 [10] = t [10] = t [10] = 4.587

38 38 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % 2 S, 0,5 % 1 S, 0.1% │ t │ ≥ t 1 -  │ t │ ≥ t 1 -  /2 Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 -  1 -  /2  /  ”felrisken” * *** ***

39 39 Medelvärdesskillnader: t-test En-grupps t-test Oberoende t-test Beroende t-test

40 40 Korrelation (samband) Korrelation = samband eller samvariation mellan två variabler (x - y) Finns det ett samband mellan variablerna? Har variablerna en inverkan på varandra? T.ex. finns det ett samband mellan IQ och prestationen i ett prov? Ju högre IQ desto högre provpoäng? T.ex. Samband mellan längd och vikt. Detta undersöks med korrelations- och regressionsmetoder. Pearson’s Produktmomentkorrelation, r xy, för variabler på minst intervallskalenivå Spearmans korrelation, r s för ordinalskalevariabler Styrkan på sambandet anges med en standardiserad korrelationskoefficient.

41 41 * * * * * * * * * * * * * * * * * * * * x y

42 42 Olika typer av samband ** *** ** *** ** Positivt (+ 1.00) Ex. Positivt samband mellan provpoäng och kursvitsord Ju högre X desto högre Y ** * ** * *** ** * * ** ** ** ** *** * ** Neutralt (noll) (± 0.00) Ex. Neutralt dvs inget samband mellan hårfärg och kursvitsord X har inget samband med Y ** *** ** Negativt (- 1.00) Ex. Negativt samband mellan frånvaro och kursvitsord Ju högre X desto lägre Y ** ** *** ** ** ** ** Non-linjärt (±0.00) Ex.?? Grad av njutning i samband med alkoholförtäring Ju högre X desto högre Y till en viss nivå sedan lägre

43 43 Sambandsmått NOM Cramérs V Phi-koefficient ORD Spearmans rangkorrelation (r s ) INT / KVPearson produktmomentkorrelation (r xy )

44 44 Exempel: Korrelationer (Pearson produktmoment korrelation) mellan provpoäng, modersmålsvitsord och läsförståelse, för flickor (övre) och pojkar (nedre). ProvpoängMo-vitsordLäsförståelse Provpoäng Mo-vitsord.11.68* Läsförståelse ofta ser man korrelationstabeller för två eller fler grupper - ofta är korrelationerna signifikanstestade (SPSS eller tabell) = inget samband = svagt samband = starkt samband = mycket starkt samband För att mäta sambandet mellan variabler har man en standardiserad korrelationskoefficient som går från -1 till +1. Egenskaper: stark – svag, positiv - negativ

45 45 SPSS utskrift för sambanden mellan modersmålsvitsord, provpoäng och läsförståelse, för samma 5:e klass, för pojkar och flickor separat Korrelationskoefficienten Signifikansnivå Antal

46 46 Exempel 1. Nurmi och Pulliainen (1991) undersökte vilka familje- och personliga faktorer som hade ett samband med unga människors (11- och 15-åringars) optimism. Familjefaktorerna (familjediskussion och föräldrakontroll) mättes med summavariabler och de personliga faktorerna med Rosenbergs självskattningsskala (1965), och intelligensen testades med ett visuellt test (IQ). Följande resultat erhölls. Hur kunde resultatet tolkas? Vilken är skillnaden mellan 11 och 15-åringar? Optimism Familjediskussion *** Föräldrakontroll-.45 ***.09 IQ * Självskattning.04.21

47 47 Ett statistiskt samband mellan två variabler kan inte direkt tolkas som ett orsakssamband (mäter ej kausala samband). Y behöver inte bero på X bara för att de har en hög korrelation. Nonsenskorrelation Ett sambands styrka måste bedömas från fall till fall, vad är starkt? Vad är svagt? Tabellen riktgivande: = inget samband = svagt samband = starkt samband = mycket starkt samband

48 48 Ett läromedel i statistik för en nybörjare Förklara noga följande teman: - Statistiska grundbegrepp, definitioner. - Hur uppgör man tabeller och diagram. När använder man olika diagram (stolp, stapel, cirkel …) - Chi-kvadrat testet. På vilken nivå skall data vara för att duskall kunna använda det? - Hur och när kan man använda t-test? - Vad innebär korrelationsanalys?


Ladda ner ppt "1 Kvantitativa forskningsmetoder I Föreläsning 2 Tom Wikman Tfn: 06-3247 250 Rum F 624, vån 6."

Liknande presentationer


Google-annonser