Ladda ner presentationen
Presentation laddar. Vänta.
1
Multipel regression och att bygga (fungerande) modeller
Föreläsning kvantitativ metod C-kurs Ekonomisk Historia, HT 2017
2
Multipel regression Skiljer sig från bivariat regression – finns fler än en förklarande variabel (fler än en x-variabel) Exempel: BNP (Y) = a (intercept [constant]) + export (x1) + utbildningsgrad (x2) + antal patent (x3) + industrialiseringsgrad (x4) + e (residual) Svårt att göra grafiska analyser med alla variabler samtidigt – finns för många dimensioner
3
Specifika saker med multipla regressioner
Determinationskoefficienten (R2) ökar, men det finns en gräns även om varje enskild variabel har högt R2 mot Y Anledningen är att de förklarande variablerna (x) i modellen korrelerar med varandra – tar bort en del av förklaringskraften Man kan inte lägga till variabler bara för att öka R2 i modellen!
4
Antalet variabler i multipla regressioner
Ökat antal variabler i modellen riskerar att minska deras signifikanser Detta på grund av att de kan vara korrelerade sinsemellan – kallas för multikollinaritet och kan behövas korrigeras (bör åtminstone undersökas) Vag tumregel: ha inte för få variabler, men inte heller för många!
5
Hur bygger man modeller? Hur väljer man variabler?
Teori ska styra vilka variabler som ska inkluderas. Vad är logiken? Hur tänker vi oss att x-variablerna ska påverka Y? Fundera även på källmaterialets kvalitet - håller serierna för statistiska test? Behövs för mycket manipulation, såsom interpolering och extrapolering? Fundera på R2 och även på Adjusted R2 när man jämför olika modeller
6
Hur bygger man modeller? Hur väljer man variabler?
Fundera alltid på om någon avgörande variabel har utelämnats – vad bör finnas med i modellen Fundera på om det finns förklarande variabler som mäter samma sak – större risk för multikollininaritet Fundera på om det finns naturlig trend i variablerna. Kan behöva hanteras – som t.ex. att logaritmera eller att avtrenda
7
Mäta nivå eller förändring?
8
Botticellis regressioner
Vad säger Botticellis regressionstabeller? Vilka variabler är signifikanta? Vad kan man läsa ut av R2? Vilka slutsatser kan vi dra utifrån resultaten?
9
Övning 1 Gör regression på försäljningsvolym (se excel-fil)
Gör regression på nysparande (se excel-fil) Testa runt med variablerna och regressionerna! Ofta behövs en del ”trial and error”! I minitab: statregressionfit regression modelfyll i variablerna
10
Övning 2 Repetition: dummy-variabler sätts som 0 eller 1
Gör regression på oljeförbrukning (se excel-fil) med isolering som dummy I minitab: statregressionfit regression modelfyll i variablerna
11
Stepwise regression Kan vara användbar när man har många olika variabler – skattar automatiskt ”bästa modellen” I minitab: StatRegressionFit regression model fyll i variablerna i modellen, välj stepwisevälj method stepwise, låt alfa-värdena vara som de ärok, kör regressionen som vanligt
12
”Bästa” möjliga statistiska modeller
På tentan – den modell med flest signifikanta variabler Dock, bästa är oftast eller alltid den modell som ”funkar för det vi vill undersöka” (rätt valda variabler, teoretiskt underbyggt, bra data) Samt, att modellen inte lider av några sjukdomar
13
Vilka sjukdomar kan drabba våra modeller?
Multikollinaritet – våra förklarande variabler korrelerar med varandra Autokorrelation – serien korrelerar med sig själv – har naturlig trend Heteroskedasticitet – variansen är inte lika för samtliga observationer, vilket gör att skattningen av våra hypotesprövningar kan visa felaktiga resultat
14
Hur upptäcker man problem i sina modeller?
Multikollinaritet – mäter våra förklarande variabler samma sak? Kolla om de korrelerar med varandra Autokorrelation – verkar serierna väldigt linjära rent grafiskt? Gör också trendanalys. Samt, hur vet vi att vi har linjära samband? (Determinationskoefficienten) Heteroskedasticitet – undersök om vi har outliers, extrema värden i vår data – kolla scatterplot
15
Olika test man kan göra och mått man kan behöva
Multikollinaritet – Variation Inflation Factor (VIF) Autokorrelation – Durbin-Watson statistic Heteroskedasticitet – White Heteroskedasticity Test Normalfördelning (av residualerna i modellen) – Jarque-Berra
16
Hur botar man sina statistiska sjukdomar?
Multikollinaritet – ta bort nån förklarande variabel som korrelerar med övriga – OM det inte är så att den måste vara kvar av teoretiska skäl Autokorrelation – transformera serierna – avtrenda, logaritmera, testa förändring istället för sekulär trend Heteroskedasticitet – ta bort outliers, alternativt minska antalet förklarande variabler
17
Olika typer av regressioner
Ordinary least squares (OLS) är den vanligaste typen Används för att förklara linjära samband Förutsätter bland annat vi inte har autokorrelation
18
Bonusinfo – andra typer av regressioner
Generalized Least Squares (GLS) Partial Least Squares (PLS) Autoregressiva modeller (AR)
19
Bonusinfo – andra typer av statistiska test än regressioner
ANOVA – en test av varians (fungerar ganska mycket som regression dock…) Granger – används för att testa kausalitet Data Envelopment Analysis (DEA) – undersöker effektivitet genom att vikta input och output
20
Inför den praktiska tentan – saker ni bör kunna
Presentera data i tabeller och grafer – inklusive scatter plots Spridningsmått: medelvärde, median, typvärde Varianssmått: varians, standardavvikelse, covariance [variationskoefficient] Korrelation mellan olika variabler (korrelationskoefficienten) Multipel regression/stepwise regression (inklusive tolkning, betydelse av R2, signifikans, tolkning av skattade koefficienter)
21
Den praktiska tentan - falufilen
Riktig data på förmögenhet och tillgångar hos 239 individer i Falun (1871) Bekanta er med filen – testa lite olika korrelationer och regressionsmodeller Slutligen: kör bästa modellen på: antal barn, metall, pengar, finansiella tillgångar, fastigheter, dödskostnader, skuld
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.