Relation mellan variabler – samvariation, korrelation, regression

Slides:



Advertisements
Liknande presentationer
2. Enkel regressionsanalys
Advertisements

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Hur bra är modellen som vi har anpassat?
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Dagens genomgång Bakgrundsfaktorer Strategier Studieteknik Kompensatoriska hjälpmedel Samordnare Ingvor Berndt,
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Vad är egentligen ett samhälle? Hur skulle ni definiera ordet samhälle? Dvs när vi pratade om ett samhälle sist, vad pratade vi om då? Ta ngn minut och.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Vad är uppsatsskrivande för nåt? Charlotta Bay. Vad kommer jag prata om? Vad är en uppsats? Vad är er uppgift? ”Vad kommer på tentan?” Vad måste ni komma.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 5 (Kajsa Fröjd) Tidsserier Kap 13.1 Man har en kvantitativ responsvariabel som mäts vid olika tidpunkter. 1.
Så kan det låta! … Mätinstrumentets reliabilitet och validitet ökades avsevärt genom en pilotstudie och för att nå bästa generaliserbarhet valdes ett representativt.
Regiongemensam elevenkät 2016 Skolrapport Öjersjö Brunns skola ÅK5.
Cirkulation och fysisk aktivitet - Våra bästa vänner går hand i hand + = Sant.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
MÅL 2015 Vinna serien. Punkter för att nå vårt MÅL Ge järnet på träning Gör maximal insats i alla övningar och spelmoment på träningen. Använd samma energi,
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Kan vi mäta effekter besökares konsumtion med hjälp av rAPS?
Kap 2 - Algebra och ickelinjära modeller
Kap 1 - Algebra och linjära modeller
Kap 4 - Statistik.
Varför läser ni religionskunskap?
Konsten att läsa sakprosa
PrimärvårdsKvalitet Stämmer våra data?
Kapitel 1 Algebra och linjära modeller manada.se.
Argumenterande text.
Lektion 2:1 Våldets uttryck Våldet tar sig olika uttryck
Vad är sociologi? – en repetition Momentöversikt Vad är en analys?
Iris Rosengren Larsson
Regiongemensam elevenkät 2016
Regiongemensam elevenkät 2016
Pedagogen och det entreprenöriella lärandet
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Fördelning av data och index
Välkommen till ett samtal om VÄRDERINGAR
Den sociologiska blicken
Tillämpad ekonometri (5 sp)
Utbildning ICF som redskap vid samverkan
Vad ingår kursen? i korta drag
Maskar ”finess” – viktigt!
FRIIDROTT ÅR INTRODUKTION.
ÅP / Lektion 8 Omtumlande händelser och inledda återfall
2. genomföra systematiska undersökningar i kemi, och
Regiongemensam elevenkät 2016
Mobiltelefonins utveckling
Regiongemensam elevenkät 2016
Karin Elardt leg psykolog Barn- och ungdomspsykiatrin Nässjö
Regiongemensam elevenkät 2016
Bostadstillägg Pensionsmyndigheten har av regeringen fått uppdraget att öka kunskapen om bostadstillägg och verka för att mörkertalet inom bostadstillägg.
Mänskliga rättigheter -
Algoritmer.
1 3 2 x x F(x) 3x F(x) = 3x y = 3x.
Algebra och icke-linjära modeller
En genomsnittlig svensks utsläpp – 11 ton/år
Tips för det praktiska ledarskapet
En genomsnittlig svensks utsläpp – 11 ton CO2/år
2018 Liria Ortiz / Peter Wirbing
ÅP / Lektion 4 Problemlösning
Psykologins forskingsmetoder
Presentationens avskrift:

Relation mellan variabler – samvariation, korrelation, regression Föreläsning kvantitativ metod C-kurs Ekonomisk Historia, HT 2017

Att förklara samband i ekonomisk historia Varför tänker man sig att variabler har ett samband med varandra? (Vilken är mekanismen i påverkan av variabel x på variabel y? Hur förklarar vi sambandet?) Svårt att bevisa kausalitet, men bra modeller som är teoretiskt underbyggda och starka resultat styrker argumenten Korrelation är inte samma som kausalitet

Regressioner för att förklara samband Enklaste formen av samband – bivariat regression: Y = a + x [ex, BNP = intercept + utbildningsgrad] Vanligare: multipel regression, där man har fler x som påverkar Y Varför multipla regressioner? Därför att vi sällan eller aldrig har monokausala samband!

Korrelation är inte kausalitet…

Och vissa typer av korrelation bevisar verkligen inte kausalitet…

Hypotestestning och signifikans Nollhypotes, H0: Det finns inget samband mellan variablerna Alternativhypotes, H1: Det finns ett samband mellan variablerna ”P-värde” i en regression: sannolikheten att korrelationen stämmer

P-värde och signifikans Lågt värde = nollhypotesen förkastas (alternativhypotesen är sann) Anges ofta på olika nivåer: 10% (0,10), 5% (0,05), 1% (0,01) 5% = modellen ger fel prediktion för variabeln 1 av 20 gånger! (Finns inga perfekta modeller, särskilt inte i samhällsvetenskap)

Scatter plots Kan vara ett bra instrument för att grafiskt undersöka och presentera samvariation X (oberoende variabel) och Y (beroende variabel) Viktigt vilken variabel som är X eller Y! Vilken korrelation/samband tänker man sig?

Regressionslinje Det linjära sambandet fångas väl genom en regressionslinje Kom ihåg räta linjens ekvation: 𝑌=𝑎+𝑏𝑡 I regressionen använder man sig ibland av grekiska bokstäver: µ = α + β1 + έ

Exempel på scatter plot

Olika former av samvariation – positiv linjär korrelation

Negativ linjär korrelation

Icke-linjär korrelation

Inget samband

Övning 1 Mata in data från Hudson, s. 144 – per capita konsumtion. Gör scatter plots på de olika variablerna mot varandra. Fundera på vad de potentiella korrelationerna kan betyda. I minitab: graphscatter plotsimple with regression linevälj variabler

Korrelationskoefficient (Pearsons) Standardiserat mått på linjära sambandets styrka, mellan -1 och 1. Betecknas med R. Läskig formel: Obs! Bevisar inte (nödvändigtvis) kausalitet. Tänk på tidigare exempel.

Spearman’s rank correlation coefficient Används när man misstänker att sambandet inte är linjärt – används också när man har ordinell data Gör scatter plot för att avgöra om sambandet är linjärt eller ej Denna koefficient kan räknas ut i minitab (eller andra statistikprogram)

Övning 2 Räkna ut korrelationkoefficienten mellan de olika konsumtionsvarorna från övning 1 I minitab: statbasic statisticscorrelationvälj typ av korrelation och variabler Fundera på sambanden – varför ser vi det vi ser? Diskutera!

Determinationskoefficienten Ungefärlig avvikelse mellan modellen och ”verkliga värdena”. Betecknas som R2 och ger procent av variationen som kan förklaras av modellen För enkel linjär regression är determinationskoefficienten R*R, alltså korrelationskoefficienten i kvadrat, därför R2. Tänk på att R2 mäter linjära samband. Vi kan ibland ha samband som inte är linjära, där R2 inte är lika användbart (eller används annorlunda)

Övning 3 Gör enkel (bivariat) regression på alla kombinationer av konsumtionsvaror från övning 1 I minitab: statregressionregressionfit regression model Fundera på determinationskoefficienten R2 och diskutera efteråt

Laggade variabler Används när man misstänker att effekten inte sker direkt utan har viss fördröjning Den oberoende variabeln (x) förskjuts i tid i förhållande till den beroende variabeln (y) (man kan också lagga y) Man bör alltid diskutera storlek på ”laggen” och varför den används!

Dummy-variabler Variabler som i grunden inte är numeriska kan kodas om till att bli numeriska. T.ex. kön, nationalitet, närvaro av krig osv. En dummy-variabel är ofta 0 eller 1 (0 för ej krig, 1 för krig) Om dummy-variabeln ”krig” har signifikant effekt på Y, så verkar det som att närvaron av krig spelar roll (t.ex. på internationell handel)

Multipel regression Har till skillnad från bivariat regression flera påverkande variabler (flera x som påverkar Y) Exempel: BNP (Y) = a (intercept [constant]) + export (x1) + utbildningsgrad (x2) + antal patent (x3) + industrialiseringsgrad (x4) + e (residual) Variabler kan vara antingen signifikanta eller ej, alltså sannolikt skilda från noll – en sannolik effekt på den beroende variabeln. Märks ofta med stjärnor i regressionstabell.

Till nästa gång Hudson, s. 159-166 Botticini (1999) artikel – tänk på R2, signifikanta variabler, samt vad allt faktiskt betyder och visar på Dock, i Botticini finns även diagnostiska test (ex F-statistiska) – dessa kan ni strunta i. Kolla dock på dummy-variabler och signifikans för olika variabler.