Relation mellan variabler – samvariation, korrelation, regression Föreläsning kvantitativ metod C-kurs Ekonomisk Historia, HT 2017
Att förklara samband i ekonomisk historia Varför tänker man sig att variabler har ett samband med varandra? (Vilken är mekanismen i påverkan av variabel x på variabel y? Hur förklarar vi sambandet?) Svårt att bevisa kausalitet, men bra modeller som är teoretiskt underbyggda och starka resultat styrker argumenten Korrelation är inte samma som kausalitet
Regressioner för att förklara samband Enklaste formen av samband – bivariat regression: Y = a + x [ex, BNP = intercept + utbildningsgrad] Vanligare: multipel regression, där man har fler x som påverkar Y Varför multipla regressioner? Därför att vi sällan eller aldrig har monokausala samband!
Korrelation är inte kausalitet…
Och vissa typer av korrelation bevisar verkligen inte kausalitet…
Hypotestestning och signifikans Nollhypotes, H0: Det finns inget samband mellan variablerna Alternativhypotes, H1: Det finns ett samband mellan variablerna ”P-värde” i en regression: sannolikheten att korrelationen stämmer
P-värde och signifikans Lågt värde = nollhypotesen förkastas (alternativhypotesen är sann) Anges ofta på olika nivåer: 10% (0,10), 5% (0,05), 1% (0,01) 5% = modellen ger fel prediktion för variabeln 1 av 20 gånger! (Finns inga perfekta modeller, särskilt inte i samhällsvetenskap)
Scatter plots Kan vara ett bra instrument för att grafiskt undersöka och presentera samvariation X (oberoende variabel) och Y (beroende variabel) Viktigt vilken variabel som är X eller Y! Vilken korrelation/samband tänker man sig?
Regressionslinje Det linjära sambandet fångas väl genom en regressionslinje Kom ihåg räta linjens ekvation: 𝑌=𝑎+𝑏𝑡 I regressionen använder man sig ibland av grekiska bokstäver: µ = α + β1 + έ
Exempel på scatter plot
Olika former av samvariation – positiv linjär korrelation
Negativ linjär korrelation
Icke-linjär korrelation
Inget samband
Övning 1 Mata in data från Hudson, s. 144 – per capita konsumtion. Gör scatter plots på de olika variablerna mot varandra. Fundera på vad de potentiella korrelationerna kan betyda. I minitab: graphscatter plotsimple with regression linevälj variabler
Korrelationskoefficient (Pearsons) Standardiserat mått på linjära sambandets styrka, mellan -1 och 1. Betecknas med R. Läskig formel: Obs! Bevisar inte (nödvändigtvis) kausalitet. Tänk på tidigare exempel.
Spearman’s rank correlation coefficient Används när man misstänker att sambandet inte är linjärt – används också när man har ordinell data Gör scatter plot för att avgöra om sambandet är linjärt eller ej Denna koefficient kan räknas ut i minitab (eller andra statistikprogram)
Övning 2 Räkna ut korrelationkoefficienten mellan de olika konsumtionsvarorna från övning 1 I minitab: statbasic statisticscorrelationvälj typ av korrelation och variabler Fundera på sambanden – varför ser vi det vi ser? Diskutera!
Determinationskoefficienten Ungefärlig avvikelse mellan modellen och ”verkliga värdena”. Betecknas som R2 och ger procent av variationen som kan förklaras av modellen För enkel linjär regression är determinationskoefficienten R*R, alltså korrelationskoefficienten i kvadrat, därför R2. Tänk på att R2 mäter linjära samband. Vi kan ibland ha samband som inte är linjära, där R2 inte är lika användbart (eller används annorlunda)
Övning 3 Gör enkel (bivariat) regression på alla kombinationer av konsumtionsvaror från övning 1 I minitab: statregressionregressionfit regression model Fundera på determinationskoefficienten R2 och diskutera efteråt
Laggade variabler Används när man misstänker att effekten inte sker direkt utan har viss fördröjning Den oberoende variabeln (x) förskjuts i tid i förhållande till den beroende variabeln (y) (man kan också lagga y) Man bör alltid diskutera storlek på ”laggen” och varför den används!
Dummy-variabler Variabler som i grunden inte är numeriska kan kodas om till att bli numeriska. T.ex. kön, nationalitet, närvaro av krig osv. En dummy-variabel är ofta 0 eller 1 (0 för ej krig, 1 för krig) Om dummy-variabeln ”krig” har signifikant effekt på Y, så verkar det som att närvaron av krig spelar roll (t.ex. på internationell handel)
Multipel regression Har till skillnad från bivariat regression flera påverkande variabler (flera x som påverkar Y) Exempel: BNP (Y) = a (intercept [constant]) + export (x1) + utbildningsgrad (x2) + antal patent (x3) + industrialiseringsgrad (x4) + e (residual) Variabler kan vara antingen signifikanta eller ej, alltså sannolikt skilda från noll – en sannolik effekt på den beroende variabeln. Märks ofta med stjärnor i regressionstabell.
Till nästa gång Hudson, s. 159-166 Botticini (1999) artikel – tänk på R2, signifikanta variabler, samt vad allt faktiskt betyder och visar på Dock, i Botticini finns även diagnostiska test (ex F-statistiska) – dessa kan ni strunta i. Kolla dock på dummy-variabler och signifikans för olika variabler.