Presentation laddar. Vänta.

Presentation laddar. Vänta.

Relation mellan variabler – samvariation, korrelation, regression

Liknande presentationer


En presentation över ämnet: "Relation mellan variabler – samvariation, korrelation, regression"— Presentationens avskrift:

1 Relation mellan variabler – samvariation, korrelation, regression
Föreläsning kvantitativ metod C-kurs Ekonomisk Historia, HT 2017

2 Att förklara samband i ekonomisk historia
Varför tänker man sig att variabler har ett samband med varandra? (Vilken är mekanismen i påverkan av variabel x på variabel y? Hur förklarar vi sambandet?) Svårt att bevisa kausalitet, men bra modeller som är teoretiskt underbyggda och starka resultat styrker argumenten Korrelation är inte samma som kausalitet

3 Regressioner för att förklara samband
Enklaste formen av samband – bivariat regression: Y = a + x [ex, BNP = intercept + utbildningsgrad] Vanligare: multipel regression, där man har fler x som påverkar Y Varför multipla regressioner? Därför att vi sällan eller aldrig har monokausala samband!

4 Korrelation är inte kausalitet…

5 Och vissa typer av korrelation bevisar verkligen inte kausalitet…

6 Hypotestestning och signifikans
Nollhypotes, H0: Det finns inget samband mellan variablerna Alternativhypotes, H1: Det finns ett samband mellan variablerna ”P-värde” i en regression: sannolikheten att korrelationen stämmer

7 P-värde och signifikans
Lågt värde = nollhypotesen förkastas (alternativhypotesen är sann) Anges ofta på olika nivåer: 10% (0,10), 5% (0,05), 1% (0,01) 5% = modellen ger fel prediktion för variabeln 1 av 20 gånger! (Finns inga perfekta modeller, särskilt inte i samhällsvetenskap)

8 Scatter plots Kan vara ett bra instrument för att grafiskt undersöka och presentera samvariation X (oberoende variabel) och Y (beroende variabel) Viktigt vilken variabel som är X eller Y! Vilken korrelation/samband tänker man sig?

9 Regressionslinje Det linjära sambandet fångas väl genom en regressionslinje Kom ihåg räta linjens ekvation: 𝑌=𝑎+𝑏𝑡 I regressionen använder man sig ibland av grekiska bokstäver: µ = α + β1 + έ

10 Exempel på scatter plot

11 Olika former av samvariation – positiv linjär korrelation

12 Negativ linjär korrelation

13 Icke-linjär korrelation

14 Inget samband

15 Övning 1 Mata in data från Hudson, s. 144 – per capita konsumtion. Gör scatter plots på de olika variablerna mot varandra. Fundera på vad de potentiella korrelationerna kan betyda. I minitab: graphscatter plotsimple with regression linevälj variabler

16 Korrelationskoefficient (Pearsons)
Standardiserat mått på linjära sambandets styrka, mellan -1 och 1. Betecknas med R. Läskig formel: Obs! Bevisar inte (nödvändigtvis) kausalitet. Tänk på tidigare exempel.

17 Spearman’s rank correlation coefficient
Används när man misstänker att sambandet inte är linjärt – används också när man har ordinell data Gör scatter plot för att avgöra om sambandet är linjärt eller ej Denna koefficient kan räknas ut i minitab (eller andra statistikprogram)

18 Övning 2 Räkna ut korrelationkoefficienten mellan de olika konsumtionsvarorna från övning 1 I minitab: statbasic statisticscorrelationvälj typ av korrelation och variabler Fundera på sambanden – varför ser vi det vi ser? Diskutera!

19 Determinationskoefficienten
Ungefärlig avvikelse mellan modellen och ”verkliga värdena”. Betecknas som R2 och ger procent av variationen som kan förklaras av modellen För enkel linjär regression är determinationskoefficienten R*R, alltså korrelationskoefficienten i kvadrat, därför R2. Tänk på att R2 mäter linjära samband. Vi kan ibland ha samband som inte är linjära, där R2 inte är lika användbart (eller används annorlunda)

20 Övning 3 Gör enkel (bivariat) regression på alla kombinationer av konsumtionsvaror från övning 1 I minitab: statregressionregressionfit regression model Fundera på determinationskoefficienten R2 och diskutera efteråt

21 Laggade variabler Används när man misstänker att effekten inte sker direkt utan har viss fördröjning Den oberoende variabeln (x) förskjuts i tid i förhållande till den beroende variabeln (y) (man kan också lagga y) Man bör alltid diskutera storlek på ”laggen” och varför den används!

22 Dummy-variabler Variabler som i grunden inte är numeriska kan kodas om till att bli numeriska. T.ex. kön, nationalitet, närvaro av krig osv. En dummy-variabel är ofta 0 eller 1 (0 för ej krig, 1 för krig) Om dummy-variabeln ”krig” har signifikant effekt på Y, så verkar det som att närvaron av krig spelar roll (t.ex. på internationell handel)

23 Multipel regression Har till skillnad från bivariat regression flera påverkande variabler (flera x som påverkar Y) Exempel: BNP (Y) = a (intercept [constant]) + export (x1) + utbildningsgrad (x2) + antal patent (x3) + industrialiseringsgrad (x4) + e (residual) Variabler kan vara antingen signifikanta eller ej, alltså sannolikt skilda från noll – en sannolik effekt på den beroende variabeln. Märks ofta med stjärnor i regressionstabell.

24 Till nästa gång Hudson, s. 159-166
Botticini (1999) artikel – tänk på R2, signifikanta variabler, samt vad allt faktiskt betyder och visar på Dock, i Botticini finns även diagnostiska test (ex F-statistiska) – dessa kan ni strunta i. Kolla dock på dummy-variabler och signifikans för olika variabler.


Ladda ner ppt "Relation mellan variabler – samvariation, korrelation, regression"

Liknande presentationer


Google-annonser