Kvantitativa forskningsmetoder I Föreläsning 2

Kvantitativa forskningsmetoder I Föreläsning 2
Tom Wikman Tfn: Rum F 624, vån 6

Kort repetition Variabel: egenskap som undersöks
Nominalskala: frekvenser, antal case per grupp, kan endast räknas # Ordinalskala: samband baserade på rangordning, kan rangordnas <> Intervall: samband baserade på mätningstalen, kan addreras, ingen nollpunkt, jämna skalsteg + - Kvotskala: samband baserade på mätningstalen, kan beräknas matematiskt * / + -

Centralmått

Medelvärde (mean) Sigma=summa
aritmetisk medelpunkt, centralmått som ger centraltendensen dvs fördelningens balanseringspunkt. summan av alla värden dividerat med antalet observationer Formel observationerna heter x1, x2, x3, ..xn summan av alla x, från i till n, börjande med x1 (i = 1) Medelvärdet beräknas enligt: Sigma=summa

Exempel: medelvärde Medeltalet för skolprestation (enligt modersmålvitsord) hos pojkar (n = 18) i en 5:e klass = 18 131 = 7.28 6 7 8 9 7,28

Md Median det mittersta värdet då alla värden har ordnats i storleksordning. n=17 Md = 7 det mittersta värdet n=18 Md = 7,5 Om antalet är udda=det mittersta värdet Om antalet är jämnt=medelvärdet av de två mittersta värdena

T Typvärde (mode) det vanligaste värdet Värde n 9 1 8 6 7 8 6 3 T=7

Utskrift från SPSS Analyze > Descriptive Statistics > Frequencies antal valida observationer antal observationer som saknas medeltal median typvärde summa Värden som variablen kan ha Frekvens=antal Procentuell andel Kumulativ procent

Normalfördelning, hyptesprövning och sannolikhet

Normalfördelning Normalfördelningskurvan, ”Gausskurvan”
68.3 % av fördelningen ligger mellan -1 och +1 standardavvikelser 95.4 % av fördelningen ligger mellan -2 och +2 standardavvikelser 99.7 % av fördelningen ligger mellan -3 och +3 standardavvikelser Undersökningsvariabler är ofta normalfördelade vilket gör att principerna med normalfördelning kan användas då man utför statistiska test.

EXEMPEL Vi har gjort ett matematiktest bland en stor grupp elever, det högsta möjliga poängtalet är 24. Vi räknar ut medeltalet och finner att det är 12 poäng och att standardavvikelsen är 3. Medelvärde 68.3 % 34 99,7 % 95,4 %

Negativ skevhet (skewness)
Alla variabler är inte normalfördelade. Fördelningskurvorna kan ha olika utseende: Positiv skevhet (svansen mot det positiva hållet) Negativ skevhet (skewness) (svansen mot det negativa hållet) Hög toppighet (kurtosis) Låg toppighet

Sannolikhet Hur vet man att det resultat man får inte beror på slumpen? Klassisk sannolikhetsdefinition = antal gynsamma utfall antal möjliga utfall Ex. Sannolikheten för att en slumpmässigt vald veckodag är en tisdag? = 1/7 Sampelstorleken (slumpmässigt urval) påverkar sannolikheten för att resultatet motsvarar verkligheten. Ju större sampel desto större sannolikhet dvs mindre utrymmer för slumpen. => använd signifikanstest för att ta reda på slumpens andel!

Hypotes Om vi vill kunna dra slutsatser t.ex. om två grupper skiljer sig från varandra utifrån data insamlade mha representativa stickprov kan vi göra en analys kallad hypotesprövning eller signifikanstest för att ta reda på om det finns en sann skillnad mellan grupperna. Det finns fler olika metoder (test) som man kan använda beroende av variabeltyp. Exempel Finns det en skillnad mellan finländska män och kvinnors inställning till aga som uppfostringsmetod? Väljer slumpmässigt ut 25 män och 25 kvinnor. Är skillnaden som finns mellan män och kvinnor statistiskt signifikant - är den sann och kan generaliseras att gälla hela populationen eller kan den ha uppkommit pga slumpen?

Exempel på noll-hypoteser och mot-hypoteser
H0 Det finns ingen skillnad mellan grupperna A och B (skillnaden beror på slumpen) H1 Det finns en skillnad mellan grupperna A och B (skillnaden är signifikant och beror inte på slumpen) H0 Det finns inget samband mellan variablerna x och y H1 Det finns ett samband mellan variablerna x och y A B = A B = X Y X Y

Felrisk Ju mindre skillnad det är mellan grupperna, desto större är risken att det är slumpen som har gjort att det finns en skillnad. Man räknar ut hur stor felrisken är, alltså hur stor inverkan kan slumpen ha på resultatet? Felrisk (prob-värde), ”säkerhetsnivåer”, hur säker kan jag vara på att det finns systematiska skillnader i mitt resultat? p <.05 * (med 95 % sannolikhet systematisk skillnad) p <.01 ** (med 99 % sannolikhet systematisk skillnad) p <.001*** (med 99.9 % sannolikhet systematisk skillnad)

Typer av fel vid statistisk beräkning.
”Oskyldigt dömd” ”På fri fot” Släpps Döms Oskyldig Skyldig H0 sant H1 sant H0 väljs ok b-fel typ II -fel H1 väljs a-fel ok typ I - fel Typ I- fel (a -fel) handlar om att hävda ett fenomen som inte finns existerar, vanligtvis genom att välja för låg signifikansnivå. Vid 5 % signifikansnivå kan sann H0 hypotes förkastas även om den är sann. Typ II - fel (b-fel) handlar om att inte hitta ett fenomen som existerar. Orsaker är vanligen okända: (1) för låg signifikansnivå, (2) för litet sampel, eller (3) oreliabla variabler

En-grupps c2 test (chi-två)
Med testet avgörs huruvida en företeelse förekommer mer eller mindre ofta än förväntat. De förväntade värdena kan beräknas antingen matematiskt (som medelfrekvens i ett sampel), eller enligt en tidigare studie. Kallas också goodness of fit. Man testar alltså om en observerad fördelning (ex provpoäng) avviker mer än slumpmässigt från en förväntad teoretisk fördelning (ex jämn fördelning). Variabler på NOMINAL-nivå Exempel: Eleverna i en klass (n=30) producerade teckningar kring temat sommar. Därefter kategoriserades teckningarna enligt den fenomenografiska metoden i tre kategorier A, B och C, enligt följande fördelning: Kategori n A B 17 C 8 Tot 30

Formel för c2 Oi = observerade frekvenser i = 1,......, k Ei = förväntade frekvenser; i = 1,......,k De matematiskt förväntade frekvenserna blir (ifall man antar att teckningarna är jämnt fördelade i gruppen = H0), att en tredjedel av teckningarna borde ha kategoriserats i vardera kategorin. Alltså: Kategori n A B 10 C Tot 30

c2=(5 – 10)2+(17 – 10) 2+(8 – 10)2 = 25+49+4 = 2.5+4.9+0.4 = 7.8
Oi = observerade frekvenser Ei = förväntade frekvenser Gr n (O) förv. (E) (O - E) (O - E)2 (O - E)2/E A ,5 B ,9 C ,4 Tot ,8 c2=(5 – 10)2+(17 – 10) 2+(8 – 10)2 = = = 7.8

7,8? Test av signifikansnivå för c2 värdet 7,8:
Frihetsgrader (df) (r - 1) (antal rader minus 1), 3-1 = 2 c [2]= * > 5.99 c [2]= ** < 9.20 c [2]= *** < 13.82 Slutsats: Med 95% sannolikhet (5% felrisk) kan vi säga att eleverna tecknat kategori B-teckningar mer än förväntat och kategori A och C mindre än förväntat. 95 % * 99 % ** 99,9 % *** 7,8?

c2 i SPSS Analyze > Nonparametric Tests > Chi Square
Observerade värden Förväntade värden c2 Frihetsgrader Signifikansnivå, 2 % felrisk

Förutsättningar För att få använda c2 måste följande uppfyllas:
Slumpmässigt urval Observerade och förväntade värden anges i absolut frekvens. Inga förväntade frekvenser får vara under 5.

Fler-grupps-c2-test Används som mått på korrelationen mellan kvalitativa variabler Exempel. I en undersökning ville man veta vem som ber aftonbön oftare, flickor eller pojkar. I en enkät besvarade 68 elever ifall de brukar be aftonbön eller ej (ja / nej) (data från Slangar & Stenbäck, 1996). Så här fördelade sig svarsresponserna. Flickor Pojkar Ja Nej 13 34 Denna design med två kolumner och två rader kallas för kontingenstabell-test eller flergrupps- c2- test. Formeln är den samma (c2), däremot beräknas de förväntade värdena på annorlunda vis.

Flickor Pojkar Totalt Ja Nej Totalt Flickor Pojkar Totalt Förväntade värden Ja a b a + b a=(a+b) * (a+c) / n Nej c d c + d b=(a+b) * (b+d) / n Total a + c b + d n (a+b+c+d) c=(c+d) * (a+c) / n d=(c+d) * (b+d) / n Flickor Pojkar Totalt Ja 12/ / Nej 13/ / Totalt c2 = (12– 7.72) 2 + (9 – 13.28) 2 + (13 – 17.28) 2+ (34 – 29.72)2 = = = 5.43 Oi = observerade frekvenser Ei = förväntade frekvenser

Test av signifikansnivå:
Frihetsgrader (k-1)(r - 1) = (antal kolumner minus 1) (antal rader minus 1), (2-1)(2-1) = 1 c2 = 5,43 c [1]= > 3.84 c [1]= < 6.63 c [1]= < 10.82 Slutsats: fler pojkar än förväntat uppgav att de inte bad aftonbön, med en felrisk på 5%.

En-grupps t-test Med ett en-grupps t-test kan du undersöka ifall medelvärdet i ett sub-sampel skiljer sig från ett känt medelvärdet i en större population. INTERVALL/KVOT-nivå. I exemplet nedan testas en grupp 5-klassisters (N=25) läsförståelse emot den totala gruppen 5e och 6e klassister i datat (N=79; känt M=33.09) H0 Gruppmedelvärdet (33,24) avviker inte från 33,09 H1 Gruppmedelvärdet (33,24) avviker från 33,09

t = Totala M=33.09 x - mo 33,24 – 33,09 = 0.154 (H0 godtas) ŝ / √ n
4,88 / √ 25 = (H0 godtas) df = n-1 = 25-1=24 Kolla i t-fördelningstabellen!

Oberoende t-test Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. Man antar att data är normalfördelat x-variabel: nom, ord, y-variabel: intervall, kvot Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass A Klass B Klass A Klass B x = x = 8.50 ŝ = ŝ = 1.049 Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden

Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen!
Klass A Klass B x = x = 8.50 ŝ = ŝ = 1.049 n=6 n=6 Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt sidigt t 0.95 [10] = t 0.95 [10] = t 0.99 [10] = t 0.99 [10] = 3.169 t [10] = t [10] = 4.587

* * ** ** *** │ t │ ≥ t 1 - a │ t │ ≥ t 1 - a/2
Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 - a a a/2 a/2 a = ”felrisken” * * ** ** *** 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % S, 0,5 % 1 S, 0.1%

Oberoende t-test i SPSS
Analyze > Compare Means > Independent Samples T-Test Signifikansnivå P<.05 Test ifall varianserna i grupperna är lika t-värde frihetsgrad Medelvärdesskillnad A-B

Resultatet i tabellform:
Tabell 1: Skillnader mellan prestationer i test “G” för klass A och B (Medelvärden och standardavvikeler). Klass A Klass B T-test (tvåsidigt) p-värde G ( .75) 8.50 (1.05) p<.05 Resultatet i text... ...det visade sig att klass B presterade högre än klass A i G-provet (t [10]= ; p<.05)

Beroende t-test Analyze> Compare Means> Paired-Samples T Test
Skiljer sig medelvärdena? Beroende t-test (paired t-test): samma grupp mäts med samma test, vid två tidpunkter, eller: samma grupp testas på två variabler. INT/KV-nivå. T.ex. har elevers skrivförmåga (mätt enligt standardiserat test 0-9 poäng) ökat från hösten-94 till våren-95? t = d Ŝ d √ n Formel för beroende t-test (Oberoende t-test (independent samples t-test): olika grupper testas med samma test vid samma tidpunkt)

Elevernas skrivförmåga har
ökat mellan 1994 och 1995 (medelvärdet för testet). Är denna ökning signifikant eller kan den bero på slumpen? Skillnaden är signifikant P<.01 Slutsats: Elevernas skrivförmåga har blivit bättre. Medelvärdesskillnaden är 0,35 poäng. Skillnaden är signifikant (P<.01).

Oberoende t-test Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. Man antar att data är normalfördelat x-variabel: nom, ord, y-variabel: intervall, kvot Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass A Klass B Klass A Klass B x = x = 8.50 ŝ = ŝ = 1.049 Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden

Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen!
Klass A Klass B x = x = 8.50 ŝ = ŝ = 1.049 n=6 n=6 Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt sidigt t 0.95 [10] = t 0.95 [10] = t 0.99 [10] = t 0.99 [10] = 3.169 t [10] = t [10] = 4.587

* * ** ** *** │ t │ ≥ t 1 - a │ t │ ≥ t 1 - a/2
Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 - a a a/2 a/2 a = ”felrisken” * * ** ** *** 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % S, 0,5 % 1 S, 0.1%

Medelvärdesskillnader: t-test
En-grupps t-test Oberoende t-test Beroende t-test

Korrelation (samband)
Korrelation = samband eller samvariation mellan två variabler (x - y) Finns det ett samband mellan variablerna? Har variablerna en inverkan på varandra? T.ex. finns det ett samband mellan IQ och prestationen i ett prov? Ju högre IQ desto högre provpoäng? T.ex. Samband mellan längd och vikt. Detta undersöks med korrelations- och regressionsmetoder. Pearson’s Produktmomentkorrelation, rxy, för variabler på minst intervallskalenivå Spearmans korrelation, rs för ordinalskalevariabler Styrkan på sambandet anges med en standardiserad korrelationskoefficient.

Olika typer av samband ** *** Positivt (+ 1.00)
Ex. Positivt samband mellan provpoäng och kursvitsord Ju högre X desto högre Y ** * ** * *** ** * * ** ** ** ** *** * ** Neutralt (noll) (± 0.00) Ex. Neutralt dvs inget samband mellan hårfärg och kursvitsord X har inget samband med Y ** ** *** ** ** ** ** ** ** Non-linjärt (±0.00) Ex.?? Grad av njutning i samband med alkoholförtäring Ju högre X desto högre Y till en viss nivå sedan lägre ** *** Negativt (- 1.00) Ex. Negativt samband mellan frånvaro och kursvitsord Ju högre X desto lägre Y

Sambandsmått NOM Cramérs V Phi-koefficient
ORD Spearmans rangkorrelation (rs) INT / KV Pearson produktmomentkorrelation (rxy)

Exempel: Korrelationer (Pearson produktmoment korrelation) mellan provpoäng, modersmålsvitsord och läsförståelse, för flickor (övre) och pojkar (nedre). Provpoäng Mo-vitsord Läsförståelse Provpoäng Mo-vitsord * Läsförståelse - ofta ser man korrelationstabeller för två eller fler grupper - ofta är korrelationerna signifikanstestade (SPSS eller tabell) För att mäta sambandet mellan variabler har man en standardiserad korrelationskoefficient som går från -1 till +1. Egenskaper: stark – svag, positiv - negativ = inget samband = svagt samband = starkt samband = mycket starkt samband

SPSS utskrift för sambanden mellan modersmålsvitsord, provpoäng och läsförståelse, för samma 5:e klass, för pojkar och flickor separat Korrelationskoefficienten Signifikansnivå Antal

Exempel 1. Nurmi och Pulliainen (1991) undersökte vilka familje- och personliga faktorer som hade ett samband med unga människors (11- och 15-åringars) optimism. Familjefaktorerna (familjediskussion och föräldrakontroll) mättes med summavariabler och de personliga faktorerna med Rosenbergs självskattningsskala (1965), och intelligensen testades med ett visuellt test (IQ). Följande resultat erhölls. Hur kunde resultatet tolkas? Vilken är skillnaden mellan 11 och 15-åringar? Optimism Familjediskussion *** Föräldrakontroll -.45 *** .09 IQ * Självskattning

Y behöver inte bero på X bara för att de har en hög korrelation.
Ett statistiskt samband mellan två variabler kan inte direkt tolkas som ett orsakssamband (mäter ej kausala samband). Y behöver inte bero på X bara för att de har en hög korrelation. Nonsenskorrelation Ett sambands styrka måste bedömas från fall till fall, vad är starkt? Vad är svagt? Tabellen riktgivande: = inget samband = svagt samband = starkt samband = mycket starkt samband

Ett läromedel i statistik för en nybörjare
Förklara noga följande teman: - Statistiska grundbegrepp, definitioner. - Hur uppgör man tabeller och diagram. När använder man olika diagram (stolp, stapel, cirkel …) - Chi-kvadrat testet. På vilken nivå skall data vara för att duskall kunna använda det? - Hur och när kan man använda t-test? - Vad innebär korrelationsanalys?

Kvantitativa forskningsmetoder I Föreläsning 2

Similar presentations

Presentation on theme: "Kvantitativa forskningsmetoder I Föreläsning 2"— Presentation transcript:

Similar presentations

About project

Feedback

Войти

Auth with social network:

Kvantitativa forskningsmetoder I Föreläsning 2

Similar presentations

Presentation on theme: "Kvantitativa forskningsmetoder I Föreläsning 2"— Presentation transcript:

Similar presentations

About project

Feedback