Multipel regression och att bygga (fungerande) modeller Föreläsning kvantitativ metod C-kurs Ekonomisk Historia, HT 2017
Multipel regression Skiljer sig från bivariat regression – finns fler än en förklarande variabel (fler än en x-variabel) Exempel: BNP (Y) = a (intercept [constant]) + export (x1) + utbildningsgrad (x2) + antal patent (x3) + industrialiseringsgrad (x4) + e (residual) Svårt att göra grafiska analyser med alla variabler samtidigt – finns för många dimensioner
Specifika saker med multipla regressioner Determinationskoefficienten (R2) ökar, men det finns en gräns även om varje enskild variabel har högt R2 mot Y Anledningen är att de förklarande variablerna (x) i modellen korrelerar med varandra – tar bort en del av förklaringskraften Man kan inte lägga till variabler bara för att öka R2 i modellen!
Antalet variabler i multipla regressioner Ökat antal variabler i modellen riskerar att minska deras signifikanser Detta på grund av att de kan vara korrelerade sinsemellan – kallas för multikollinaritet och kan behövas korrigeras (bör åtminstone undersökas) Vag tumregel: ha inte för få variabler, men inte heller för många!
Hur bygger man modeller? Hur väljer man variabler? Teori ska styra vilka variabler som ska inkluderas. Vad är logiken? Hur tänker vi oss att x-variablerna ska påverka Y? Fundera även på källmaterialets kvalitet - håller serierna för statistiska test? Behövs för mycket manipulation, såsom interpolering och extrapolering? Fundera på R2 och även på Adjusted R2 när man jämför olika modeller
Hur bygger man modeller? Hur väljer man variabler? Fundera alltid på om någon avgörande variabel har utelämnats – vad bör finnas med i modellen Fundera på om det finns förklarande variabler som mäter samma sak – större risk för multikollininaritet Fundera på om det finns naturlig trend i variablerna. Kan behöva hanteras – som t.ex. att logaritmera eller att avtrenda
Mäta nivå eller förändring?
Botticellis regressioner Vad säger Botticellis regressionstabeller? Vilka variabler är signifikanta? Vad kan man läsa ut av R2? Vilka slutsatser kan vi dra utifrån resultaten?
Övning 1 Gör regression på försäljningsvolym (se excel-fil) Gör regression på nysparande (se excel-fil) Testa runt med variablerna och regressionerna! Ofta behövs en del ”trial and error”! I minitab: statregressionfit regression modelfyll i variablerna
Övning 2 Repetition: dummy-variabler sätts som 0 eller 1 Gör regression på oljeförbrukning (se excel-fil) med isolering som dummy I minitab: statregressionfit regression modelfyll i variablerna
Stepwise regression Kan vara användbar när man har många olika variabler – skattar automatiskt ”bästa modellen” I minitab: StatRegressionFit regression model fyll i variablerna i modellen, välj stepwisevälj method stepwise, låt alfa-värdena vara som de ärok, kör regressionen som vanligt
”Bästa” möjliga statistiska modeller På tentan – den modell med flest signifikanta variabler Dock, bästa är oftast eller alltid den modell som ”funkar för det vi vill undersöka” (rätt valda variabler, teoretiskt underbyggt, bra data) Samt, att modellen inte lider av några sjukdomar
Vilka sjukdomar kan drabba våra modeller? Multikollinaritet – våra förklarande variabler korrelerar med varandra Autokorrelation – serien korrelerar med sig själv – har naturlig trend Heteroskedasticitet – variansen är inte lika för samtliga observationer, vilket gör att skattningen av våra hypotesprövningar kan visa felaktiga resultat
Hur upptäcker man problem i sina modeller? Multikollinaritet – mäter våra förklarande variabler samma sak? Kolla om de korrelerar med varandra Autokorrelation – verkar serierna väldigt linjära rent grafiskt? Gör också trendanalys. Samt, hur vet vi att vi har linjära samband? (Determinationskoefficienten) Heteroskedasticitet – undersök om vi har outliers, extrema värden i vår data – kolla scatterplot
Olika test man kan göra och mått man kan behöva Multikollinaritet – Variation Inflation Factor (VIF) Autokorrelation – Durbin-Watson statistic Heteroskedasticitet – White Heteroskedasticity Test Normalfördelning (av residualerna i modellen) – Jarque-Berra
Hur botar man sina statistiska sjukdomar? Multikollinaritet – ta bort nån förklarande variabel som korrelerar med övriga – OM det inte är så att den måste vara kvar av teoretiska skäl Autokorrelation – transformera serierna – avtrenda, logaritmera, testa förändring istället för sekulär trend Heteroskedasticitet – ta bort outliers, alternativt minska antalet förklarande variabler
Olika typer av regressioner Ordinary least squares (OLS) är den vanligaste typen Används för att förklara linjära samband Förutsätter bland annat vi inte har autokorrelation
Bonusinfo – andra typer av regressioner Generalized Least Squares (GLS) Partial Least Squares (PLS) Autoregressiva modeller (AR)
Bonusinfo – andra typer av statistiska test än regressioner ANOVA – en test av varians (fungerar ganska mycket som regression dock…) Granger – används för att testa kausalitet Data Envelopment Analysis (DEA) – undersöker effektivitet genom att vikta input och output
Inför den praktiska tentan – saker ni bör kunna Presentera data i tabeller och grafer – inklusive scatter plots Spridningsmått: medelvärde, median, typvärde Varianssmått: varians, standardavvikelse, covariance [variationskoefficient] Korrelation mellan olika variabler (korrelationskoefficienten) Multipel regression/stepwise regression (inklusive tolkning, betydelse av R2, signifikans, tolkning av skattade koefficienter)
Den praktiska tentan - falufilen Riktig data på förmögenhet och tillgångar hos 239 individer i Falun (1871) Bekanta er med filen – testa lite olika korrelationer och regressionsmodeller Slutligen: kör bästa modellen på: antal barn, metall, pengar, finansiella tillgångar, fastigheter, dödskostnader, skuld