Kvantitativa forskningsmetoder I Föreläsning 2

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Kap 1 - Algebra och linjära modeller
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Samband mellan kvalitativa variabler Sid
Redovisning av drogvaneundersökning åk 7-9 Strömsunds kommun 2010
FL3 732G81 Linköpings universitet.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Kapitel 5 Stickprovsteori Sid
Grundläggande statstik, ht 09, AN1 F9 Analys av frekvenstabeller Hittills har vi analyserat eller jämfört 2 grupper avseende variabler på intervall- eller.
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Kap 4 - Statistik.
Hittarps IK Kartläggningspresentation år 3.
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
TÄNK PÅ ETT HELTAL MELLAN 1-50
Grundskola Elever 2013 Grundskoleenkät - Elever ( per klass)
Sammanfatta siffrorna…
Skattningens medelfel
Chitvå-test Regression forts.
Enkätresultat för Fritidshem Elever 2014 Skola:Fritidselever, Gillberga skola.
Grundskola Föräldrar 2013 Grundskoleenkät - Föräldrar Enhet:Gillberga skola.
Förelasning 1 Kursintroduktion Statistiska undersökningar
Centrala Gränsvärdessatsen:
FK2002,FK2004 Föreläsning 2.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Sannolikhet Stickprov Fördelningar
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Vara kommun Grundskoleundersökning 2014 Föräldrar 2 Levene skola årskurs 5 Antal svar 2014 för aktuell årskurs i skola: 12 Antal svar 2014 för årskurs.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
Hur bra är modellen som vi har anpassat?
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Normalfördelningen och centrala gränsvärdessatsen
732G22 Grunder i statistisk metodik
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
732G22 Grunder i statistisk metodik
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
Lägesmått. Lägesmått Vad är lägesmått? Sammanfatta en mängd data Exempelvis hur mycket veckopengar får elever som går i åk7… En klass består av ca.
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
1. Kontinuerliga variabler
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Marknadsundersökning Kap 12
Förelasning 1 Kursintroduktion Statistiska undersökningar
Grundl. statistik F2, ht09, AN
Grundläggande begrepp
Y 5.4 Tabeller och diagram Frekvens och relativ frekvens
Presentationens avskrift:

Kvantitativa forskningsmetoder I Föreläsning 2 Tom Wikman tom.wikman@abo.fi Tfn: 06-3247 250 Rum F 624, vån 6

Kort repetition Variabel: egenskap som undersöks Nominalskala: frekvenser, antal case per grupp, kan endast räknas # Ordinalskala: samband baserade på rangordning, kan rangordnas <> Intervall: samband baserade på mätningstalen, kan addreras, ingen nollpunkt, jämna skalsteg + - Kvotskala: samband baserade på mätningstalen, kan beräknas matematiskt * / + -

Centralmått

Medelvärde (mean) Sigma=summa aritmetisk medelpunkt, centralmått som ger centraltendensen dvs fördelningens balanseringspunkt. summan av alla värden dividerat med antalet observationer Formel observationerna heter x1, x2, x3, ..xn summan av alla x, från i till n, börjande med x1 (i = 1) Medelvärdet beräknas enligt: Sigma=summa

Exempel: medelvärde Medeltalet för skolprestation (enligt modersmålvitsord) hos pojkar (n = 18) i en 5:e klass 9 + 8 + 8 + 8 + 8 + 8 + 8 + 7 + 7 + 7 + 7 + 7 + 7 + 7 + 7 + 6 + 6 + 6 = 18 131 = 7.28 6 7 8 9 7,28

Md Median det mittersta värdet då alla värden har ordnats i storleksordning. 9 8 8 8 8 8 8 7 7 7 7 7 7 7 7 6 6 n=17 Md = 7 det mittersta värdet 9 9 8 8 8 8 8 8 8 7 7 7 7 7 7 6 6 6 n=18 Md = 7,5 Om antalet är udda=det mittersta värdet Om antalet är jämnt=medelvärdet av de två mittersta värdena

T Typvärde (mode) det vanligaste värdet Värde n 9 1 8 6 7 8 6 3 T=7

Utskrift från SPSS Analyze > Descriptive Statistics > Frequencies antal valida observationer antal observationer som saknas medeltal median typvärde summa Värden som variablen kan ha Frekvens=antal Procentuell andel Kumulativ procent

Normalfördelning, hyptesprövning och sannolikhet

Normalfördelning Normalfördelningskurvan, ”Gausskurvan” 68.3 % av fördelningen ligger mellan -1 och +1 standardavvikelser 95.4 % av fördelningen ligger mellan -2 och +2 standardavvikelser 99.7 % av fördelningen ligger mellan -3 och +3 standardavvikelser Undersökningsvariabler är ofta normalfördelade vilket gör att principerna med normalfördelning kan användas då man utför statistiska test.

EXEMPEL Vi har gjort ett matematiktest bland en stor grupp elever, det högsta möjliga poängtalet är 24. Vi räknar ut medeltalet och finner att det är 12 poäng och att standardavvikelsen är 3. 0 3 6 9 12 15 18 21 24 Medelvärde 68.3 % 34 99,7 % 95,4 %

Negativ skevhet (skewness) Alla variabler är inte normalfördelade. Fördelningskurvorna kan ha olika utseende: Positiv skevhet (svansen mot det positiva hållet) Negativ skevhet (skewness) (svansen mot det negativa hållet) Hög toppighet (kurtosis) Låg toppighet

Sannolikhet Hur vet man att det resultat man får inte beror på slumpen? Klassisk sannolikhetsdefinition = antal gynsamma utfall antal möjliga utfall Ex. Sannolikheten för att en slumpmässigt vald veckodag är en tisdag? = 1/7 Sampelstorleken (slumpmässigt urval) påverkar sannolikheten för att resultatet motsvarar verkligheten. Ju större sampel desto större sannolikhet dvs mindre utrymmer för slumpen. => använd signifikanstest för att ta reda på slumpens andel!

Hypotes Om vi vill kunna dra slutsatser t.ex. om två grupper skiljer sig från varandra utifrån data insamlade mha representativa stickprov kan vi göra en analys kallad hypotesprövning eller signifikanstest för att ta reda på om det finns en sann skillnad mellan grupperna. Det finns fler olika metoder (test) som man kan använda beroende av variabeltyp. Exempel Finns det en skillnad mellan finländska män och kvinnors inställning till aga som uppfostringsmetod? Väljer slumpmässigt ut 25 män och 25 kvinnor. Är skillnaden som finns mellan män och kvinnor statistiskt signifikant - är den sann och kan generaliseras att gälla hela populationen eller kan den ha uppkommit pga slumpen?

Exempel på noll-hypoteser och mot-hypoteser H0 Det finns ingen skillnad mellan grupperna A och B (skillnaden beror på slumpen) H1 Det finns en skillnad mellan grupperna A och B (skillnaden är signifikant och beror inte på slumpen) H0 Det finns inget samband mellan variablerna x och y H1 Det finns ett samband mellan variablerna x och y A B = A B = X Y X Y

Felrisk Ju mindre skillnad det är mellan grupperna, desto större är risken att det är slumpen som har gjort att det finns en skillnad. Man räknar ut hur stor felrisken är, alltså hur stor inverkan kan slumpen ha på resultatet? Felrisk (prob-värde), ”säkerhetsnivåer”, hur säker kan jag vara på att det finns systematiska skillnader i mitt resultat? p <.05 * (med 95 % sannolikhet systematisk skillnad) p <.01 ** (med 99 % sannolikhet systematisk skillnad) p <.001*** (med 99.9 % sannolikhet systematisk skillnad)

Typer av fel vid statistisk beräkning. ”Oskyldigt dömd” ”På fri fot” Släpps Döms Oskyldig Skyldig H0 sant H1 sant H0 väljs ok b-fel typ II -fel H1 väljs a-fel ok typ I - fel Typ I- fel (a -fel) handlar om att hävda ett fenomen som inte finns existerar, vanligtvis genom att välja för låg signifikansnivå. Vid 5 % signifikansnivå kan sann H0 hypotes förkastas även om den är sann. Typ II - fel (b-fel) handlar om att inte hitta ett fenomen som existerar. Orsaker är vanligen okända: (1) för låg signifikansnivå, (2) för litet sampel, eller (3) oreliabla variabler

En-grupps c2 test (chi-två) Med testet avgörs huruvida en företeelse förekommer mer eller mindre ofta än förväntat. De förväntade värdena kan beräknas antingen matematiskt (som medelfrekvens i ett sampel), eller enligt en tidigare studie. Kallas också goodness of fit. Man testar alltså om en observerad fördelning (ex provpoäng) avviker mer än slumpmässigt från en förväntad teoretisk fördelning (ex jämn fördelning). Variabler på NOMINAL-nivå Exempel: Eleverna i en klass (n=30) producerade teckningar kring temat sommar. Därefter kategoriserades teckningarna enligt den fenomenografiska metoden i tre kategorier A, B och C, enligt följande fördelning: Kategori n A 5 B 17 C 8 Tot 30

Formel för c2 Oi = observerade frekvenser i = 1,......, k Ei = förväntade frekvenser; i = 1,......,k De matematiskt förväntade frekvenserna blir (ifall man antar att teckningarna är jämnt fördelade i gruppen = H0), att en tredjedel av teckningarna borde ha kategoriserats i vardera kategorin. Alltså: Kategori n A 10 B 10 C 10 Tot 30

c2=(5 – 10)2+(17 – 10) 2+(8 – 10)2 = 25+49+4 = 2.5+4.9+0.4 = 7.8 Oi = observerade frekvenser Ei = förväntade frekvenser Gr n (O) förv. (E) (O - E) (O - E)2 (O - E)2/E A 5 10 -5 25 2,5 B 17 10 7 49 4,9 C 8 10 -2 4 0,4 Tot 30 7,8 c2=(5 – 10)2+(17 – 10) 2+(8 – 10)2 = 25+49+4 = 2.5+4.9+0.4 = 7.8 10 10 10 10 10 10

7,8? Test av signifikansnivå för c2 värdet 7,8: Frihetsgrader (df) (r - 1) (antal rader minus 1), 3-1 = 2   c2 0.95 [2]= 5.991 * 7.80 > 5.99 c2 0.99 [2]= 9.210 ** 7.80 < 9.20 c2 0.999 [2]= 13.816 *** 7.80 < 13.82 Slutsats: Med 95% sannolikhet (5% felrisk) kan vi säga att eleverna tecknat kategori B-teckningar mer än förväntat och kategori A och C mindre än förväntat. 95 % * 99 % ** 99,9 % *** 7,8?

c2 i SPSS Analyze > Nonparametric Tests > Chi Square Observerade värden Förväntade värden c2 Frihetsgrader Signifikansnivå, 2 % felrisk

Förutsättningar För att få använda c2 måste följande uppfyllas: Slumpmässigt urval Observerade och förväntade värden anges i absolut frekvens. Inga förväntade frekvenser får vara under 5.

Fler-grupps-c2-test Används som mått på korrelationen mellan kvalitativa variabler Exempel. I en undersökning ville man veta vem som ber aftonbön oftare, flickor eller pojkar. I en enkät besvarade 68 elever ifall de brukar be aftonbön eller ej (ja / nej) (data från Slangar & Stenbäck, 1996). Så här fördelade sig svars­responserna.   Flickor Pojkar Ja 12 9 Nej 13 34 Denna design med två kolumner och två rader kallas för kontingenstabell-test eller flergrupps- c2- test. Formeln är den samma (c2), däremot beräknas de förväntade värdena på annorlunda vis.

Flickor Pojkar Totalt Ja 12 9 21 Nej 13 34 47 Totalt 25 43 68 Flickor Pojkar Totalt Förväntade värden Ja a b a + b a=(a+b) * (a+c) / n Nej c d c + d b=(a+b) * (b+d) / n Total a + c b + d n (a+b+c+d) c=(c+d) * (a+c) / n d=(c+d) * (b+d) / n Flickor Pojkar Totalt Ja 12/7.72 9/13.28 21 Nej 13/17.28 34/29.72 47 Totalt 25 43 68 c2 = (12– 7.72) 2 + (9 – 13.28) 2 + (13 – 17.28) 2+ (34 – 29.72)2 = 7.72 13.28 17.28 29.72 18.31 + 18.31+18.31+18.31 = 2.37 + 1.38 + 1.06 + 0.62 = 5.43 7.72 13.28 17.28 29.72 Oi = observerade frekvenser Ei = förväntade frekvenser

Test av signifikansnivå: Frihetsgrader (k-1)(r - 1) = (antal kolumner minus 1) (antal rader minus 1), (2-1)(2-1) = 1 c2 = 5,43 c2 0.95 [1]= 3.841 5.43 > 3.84 c2 0.99 [1]= 6.635 5.43 < 6.63 c2 0.999 [1]= 10.828 5.43 < 10.82 Slutsats: fler pojkar än förväntat uppgav att de inte bad aftonbön, med en felrisk på 5%.

En-grupps t-test Med ett en-grupps t-test kan du undersöka ifall medelvärdet i ett sub-sampel skiljer sig från ett känt medelvärdet i en större population. INTERVALL/KVOT-nivå. I exemplet nedan testas en grupp 5-klassisters (N=25) läsförståelse emot den totala gruppen 5e och 6e klassister i datat (N=79; känt M=33.09) H0 Gruppmedelvärdet (33,24) avviker inte från 33,09 H1 Gruppmedelvärdet (33,24) avviker från 33,09

t = Totala M=33.09 x - mo 33,24 – 33,09 = 0.154 (H0 godtas) ŝ / √ n 4,88 / √ 25 = 0.154 (H0 godtas) df = n-1 = 25-1=24 Kolla i t-fördelningstabellen!

Oberoende t-test Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. Man antar att data är normalfördelat x-variabel: nom, ord, y-variabel: intervall, kvot Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass A Klass B 7 7 6 8 7 9 8 10 7 9 8 8 Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden

Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 n=6 n=6 Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt 2 sidigt t 0.95 [10] = 1.812 t 0.95 [10] = 2.228 t 0.99 [10] = 2.764 t 0.99 [10] = 3.169 t 0.999 [10] = 4.144 t 0.999 [10] = 4.587

* * ** ** *** │ t │ ≥ t 1 - a │ t │ ≥ t 1 - a/2   Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 - a a 1 - a/2 a/2 0.95 .05 0.90 .10 0.975 .025 0.95 .05 0.99 .01 0.98 .02 0.995 .005 0.99 .01 a = ”felrisken” * * ** ** *** 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % 2 S, 0,5 % 1 S, 0.1%

Oberoende t-test i SPSS Analyze > Compare Means > Independent Samples T-Test Signifikansnivå P<.05 Test ifall varianserna i grupperna är lika t-värde frihetsgrad Medelvärdesskillnad A-B

Resultatet i tabellform: Tabell 1: Skillnader mellan prestationer i test “G” för klass A och B (Medelvärden och standardavvikeler). Klass A Klass B T-test (tvåsidigt) p-värde G 7.17 ( .75) 8.50 (1.05) - 2.53 p<.05   Resultatet i text... ...det visade sig att klass B presterade högre än klass A i G-provet (t [10]= - 2.53; p<.05).............

Beroende t-test Analyze> Compare Means> Paired-Samples T Test Skiljer sig medelvärdena? Beroende t-test (paired t-test): samma grupp mäts med samma test, vid två tidpunkter, eller: samma grupp testas på två variabler. INT/KV-nivå. T.ex. har elevers skrivförmåga (mätt enligt standardiserat test 0-9 poäng) ökat från hösten-94 till våren-95? t = d Ŝ d √ n Formel för beroende t-test (Oberoende t-test (independent samples t-test): olika grupper testas med samma test vid samma tidpunkt)

Elevernas skrivförmåga har ökat mellan 1994 och 1995 (medelvärdet för testet). Är denna ökning signifikant eller kan den bero på slumpen? Skillnaden är signifikant P<.01 Slutsats: Elevernas skrivförmåga har blivit bättre. Medelvärdesskillnaden är 0,35 poäng. Skillnaden är signifikant (P<.01).

Oberoende t-test Man jämför två gruppers medelvärden som har testats med samma test vid samma tidpunkt. Man antar att data är normalfördelat x-variabel: nom, ord, y-variabel: intervall, kvot Exempel: Hur skiljer sig skolprestationerna i klass A från prestationerna i klass B? Klass A Klass B 7 7 6 8 7 9 8 10 7 9 8 8 Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 Hypoteser: H0: ingen skillnad mellan klass A:s och klass B:s medelvärden H1: skillnad mellan klass A:s och klass B:s medelvärden

Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! Klass A Klass B x = 7.167 x = 8.50 ŝ = 0.753 ŝ = 1.049 n=6 n=6 Frihetsgrad: df = (n1 + n2 -2) df=6 + 6 – 2 = 10 Kolla i t-tabellen! 1 sidigt 2 sidigt t 0.95 [10] = 1.812 t 0.95 [10] = 2.228 t 0.99 [10] = 2.764 t 0.99 [10] = 3.169 t 0.999 [10] = 4.144 t 0.999 [10] = 4.587

* * ** ** *** │ t │ ≥ t 1 - a │ t │ ≥ t 1 - a/2   Obs! ensidigt förkastningsområde tvåsidigt förkastningsområde 1 - a a 1 - a/2 a/2 0.95 .05 0.90 .10 0.975 .025 0.95 .05 0.99 .01 0.98 .02 0.995 .005 0.99 .01 a = ”felrisken” * * ** ** *** 1 S, 10% 2 S, 7,5 % 1 S, 5 % 2 S, 2,5 % 1 S, 1 % 2 S, 0,5 % 1 S, 0.1%

Medelvärdesskillnader: t-test En-grupps t-test Oberoende t-test Beroende t-test

Korrelation (samband) Korrelation = samband eller samvariation mellan två variabler (x - y) Finns det ett samband mellan variablerna? Har variablerna en inverkan på varandra? T.ex. finns det ett samband mellan IQ och prestationen i ett prov? Ju högre IQ desto högre provpoäng? T.ex. Samband mellan längd och vikt. Detta undersöks med korrelations- och regressionsmetoder. Pearson’s Produktmomentkorrelation, rxy, för variabler på minst intervallskalenivå Spearmans korrelation, rs för ordinalskalevariabler Styrkan på sambandet anges med en standardiserad korrelationskoefficient.

* y x

Olika typer av samband ** *** Positivt (+ 1.00) Ex. Positivt samband mellan provpoäng och kursvitsord Ju högre X desto högre Y ** * ** * *** ** * * ** ** ** ** *** * ** Neutralt (noll) (± 0.00) Ex. Neutralt dvs inget samband mellan hårfärg och kursvitsord X har inget samband med Y ** ** *** ** ** ** ** ** ** Non-linjärt (±0.00) Ex.?? Grad av njutning i samband med alkoholförtäring Ju högre X desto högre Y till en viss nivå sedan lägre ** *** Negativt (- 1.00) Ex. Negativt samband mellan frånvaro och kursvitsord Ju högre X desto lägre Y

Sambandsmått NOM Cramérs V Phi-koefficient ORD Spearmans rangkorrelation (rs) INT / KV Pearson produktmomentkorrelation (rxy)

Exempel: Korrelationer (Pearson produktmoment korrelation) mellan provpoäng, modersmålsvitsord och läsförståelse, för flickor (övre) och pojkar (nedre). Provpoäng Mo-vitsord Läsförståelse Provpoäng .19 .36 Mo-vitsord .11 .68* Läsförståelse .01 .29 - ofta ser man korrelationstabeller för två eller fler grupper - ofta är korrelationerna signifikanstestade (SPSS eller tabell) För att mäta sambandet mellan variabler har man en standardiserad korrelationskoefficient som går från -1 till +1. Egenskaper: stark – svag, positiv - negativ 0 - .20 = inget samband .21-.40 = svagt samband .41-.60 = starkt samband .61-1.00 = mycket starkt samband

SPSS utskrift för sambanden mellan modersmålsvitsord, provpoäng och läsförståelse, för samma 5:e klass, för pojkar och flickor separat Korrelationskoefficienten Signifikansnivå Antal

Exempel 1. Nurmi och Pulliainen (1991) undersökte vilka familje- och personliga faktorer som hade ett samband med unga människors (11- och 15-åringars) optimism. Familjefaktorerna (familjediskussion och föräldrakontroll) mättes med summavariabler och de personliga faktorerna med Rosenbergs självskattningsskala (1965), och intelligensen testades med ett visuellt test (IQ). Följande resultat erhölls. Hur kunde resultatet tolkas? Vilken är skillnaden mellan 11 och 15-åringar? Optimism 11 15 Familjediskussion .05 .41 *** Föräldrakontroll -.45 *** .09 IQ .05 .30 * Självskattning .04 .21

Y behöver inte bero på X bara för att de har en hög korrelation. Ett statistiskt samband mellan två variabler kan inte direkt tolkas som ett orsakssamband (mäter ej kausala samband). Y behöver inte bero på X bara för att de har en hög korrelation. Nonsenskorrelation Ett sambands styrka måste bedömas från fall till fall, vad är starkt? Vad är svagt? Tabellen riktgivande: 0 - .20 = inget samband .21-.40 = svagt samband .41-.60 = starkt samband .61-1.00 = mycket starkt samband

Ett läromedel i statistik för en nybörjare Förklara noga följande teman: - Statistiska grundbegrepp, definitioner. - Hur uppgör man tabeller och diagram. När använder man olika diagram (stolp, stapel, cirkel …) - Chi-kvadrat testet. På vilken nivå skall data vara för att duskall kunna använda det? - Hur och när kan man använda t-test? - Vad innebär korrelationsanalys?