3. Multipel regression 2005 © Rune Höglund Multipel regression
Regressionsmodellen Två eller flera (k) oberoende variabler Den multipla regressionsmodellen skrivs som: Yi = b0 + b1X1i + b2X2i + …+ bkXki + ei För att vi ska kunna skatta modellen krävs att n > k+1. 2005 © Rune Höglund Multipel regression
Regressionsmodellen Samma antaganden som för den enkla regressionslinjen plus: iic) Inga exakta linjära samband mellan de förklarande variablerna (perfekt multikolli-nearitet) I den multipla regressionsmodellen ’mäter’ bi hur mycket Y förändras då Xi ökar med en enhet och de övriga Xj variablerna hålls konstanta 2005 © Rune Höglund Multipel regression
Tolkning av koefficienter SR = konsumtion av bilar i miljarder dollar YPR = privata inkomster i miljarder dollar RR = 3-månader SSVX, % per år bYPR Om de privata inkomsterna ökar med 1 miljard dollar ökar komsumtionen av bilar med i genomsnitt 0,007 miljarder dollar givet att räntan hålls konstant. bRR Om räntan ökar med 1 procentenhet minskar komsumtionen av bilar med i genomsnitt 1,366 miljarder dollar givet att de privata inkomsterna hålls konstanta. 2005 © Rune Höglund Multipel regression
Matrisform Y1 = b0 + b1X11 + b2X21 + …+ bkXk1 + e1 Har en regr.mod. med k ober. variabler, n observ. Y1 = b0 + b1X11 + b2X21 + …+ bkXk1 + e1 Y2 = b0 + b1X12 + b2X22 + …+ bkXk2 + e2 Yn = b0 + b1X1n + b2X2n + …+ bkXkn + en eller i matrisform Y = Xb + e där 2005 © Rune Höglund Multipel regression
Matrisform Minimerar ESS = Sei2 = e´e , m.a.p. b Multipel regression 2005 © Rune Höglund Multipel regression
Matrisform Deriverar ESS m.a.p. b | För minsta kvadratresidualerna e gäller att E(e´e ) = (n-(k+1))s2, och en v.v.r. skattning för s2 är s2 2005 © Rune Höglund Multipel regression
BLUE och standardfel Givet att antagandena ia)-iiic) är uppfyllda är OLS-estimatorerna av b BLUE (bästa linjära väntevärdesriktiga estimator). Är dessutom feltermen normalfördelad är OLS-estimatorerna = ML-estimatorerna. 2005 © Rune Höglund Multipel regression
BLUE och standardfel Varians-kovariansmatrisen för skattningarna = V Diagonalelementen i matrisen V är variansen för parameterskatningarna och icke-diagonalelementen är kovarianserna mellan parameterskattningarna 2005 © Rune Höglund Multipel regression
Medelfel, hypoteser och intervall Kovariansmatrisen skattas genom att substituera in skattningen s2 i st.f. s2. Låt vii vara diagonalele-menten i V, då är (vii)½ medelfelen för parameterskattningarna bj = Gäller att 2005 © Rune Höglund Multipel regression
Medelfel, hypoteser och intervall | testa hypoteser och bilda konfidensintervall för bj 2005 © Rune Höglund Multipel regression
R2, justerat R2 och F-test Liksom tidigare har vi TSS = ESS + RSS, eller = determinationskoefficienten 0 £ R2 £ 1, ett mått på anpassningsgraden Kan användas (med eftertanke) för att jämföra alternativa specifikationer för en viss variabel 2005 © Rune Höglund Multipel regression
R2, justerat R2 och F-test Användningen problematisk för antar ju att modellen är korrekt specifiserad känsligt för antalet förklarande variabler, R2 kan aldrig minska när vi lägger till en förklarande variabel R2 svårtolkat då interceptet fixeras till 0 I stället för R2 kan vi beräkna justerat (korrigerat) R2, som vi får genom att i stället för ESS och TSS använda de v.v.r. variansskattningarna för residualen resp. Y- variablen, 2005 © Rune Höglund Multipel regression
R2, justerat R2 och F-test Observera att justerade R2 kan vara negativt Då nya variabler sätts till ekvationen ökar alltid R2 medan justerade R2 kan öka eller minska För att testa signifikansen för R2 eller hela regressi- onens signifikans, dvs testa 2005 © Rune Höglund Multipel regression
R2, justerat R2 och F-test H0: alla b = 0 (utom interceptet), H1: åtminstone något b 0 kan vi göra ett F-test Testvariabeln är som är F-fördelad men k, respektive n-(k+1) frihetsgrader. Obs! F-testet kan förkasta H0 fastän t-testen, för de individuella bj:na inte förkastar H0. 2005 © Rune Höglund Multipel regression
Standardiserade koefficienter Standardiserade koefficienter anger den relativa betydelsen av en oberoende variabel i en multipel regressionsmodell, typ där Observera att interceptet försvinner! 2005 © Rune Höglund Multipel regression
Standardiserade koefficienter Standardiserade koefficienter kan användas för att rangordna variablerna efter betydelse, sortera efter absolutbeloppet av b*. Tolkning: Om X ökar en standardavvikelse förän-dras Y med i genomsnitt b* standardavvikelser givet att övriga förklarande variabler i modellen hålls konstanta. b* är oberoende av enhet! 2005 © Rune Höglund Multipel regression
Elasticiteter Elasticiteten mäter effekten av en 1% ökning i den ober. var. (X) på den ber. var (Y). Elasticiteten för Y m.a.p. X1 är den procentuella förändringen i Y dividerat med den procentuella förändringen i X1 Elasticiteten är vanligen inte konstant utan beror på vilken nivå vi befinner oss på. Ofta beräknas Ei:na vid medelvärdet på variablerna 2005 © Rune Höglund Multipel regression
Partiell korrelation Modell: Yi = b0 + b1X1i + b2X2i + b3X3i + ei Enkel korrelation: rYX1 Partiell korrelation: rYX1•X2X3 Direkta och indirekta samband: Försäljning Direkt samband + — Indirekt samband +/— ? Annonsvolym Pris +/— 2005 © Rune Höglund Multipel regression
Partiell korrelation Sambandet till R2. med en förklarande variabel är r2XY = R2 r2YX1•X2 kan betraktas som den andel av variationen i Y som inte förklaras av X2, men som förklaras av den del av X1 som är okorrelerad med X2 Partiell korrelation används kanske främst vid stegvis regressionsanalys. Adderar variabler till regressionsekvationen för att maximera justerade R2 2005 © Rune Höglund Multipel regression
Dummyvariabler Kvalitativa egenskaper och variabler För att förklara ekonomiska fenomen och samband kan vi också behöva introducera kvalitativa variabler (t ex kön, hudfärg, religion, utbildningsnivå, strejkläge, jordbävning, revolution, ny regering osv). Ofta två alternativ; förekommer respektive förekommer ej, Andra kan anta två olika värden; man respektive kvinna, eller flera olika värden; hudfärg, utbildningsnivå. 2005 © Rune Höglund Multipel regression
Dummyvariabler Frågan är nu hur vi ska kunna inkludera kvalitativa variabler i en traditionell regressionsmodell? Detta görs genom att skapa ”artificiella” variabler som kan anta värdena 0 och 1. Vi låter 1 betyda förekomst av egenskapen och 0 avsaknad därav. Denna form av variabler benämns dummyvariabler. Alternativa namn är indikatorvariabler, bivariata variabler (binära), kategorivariabler eller dikotoma variabler. 2005 © Rune Höglund Multipel regression
Dummyvariabler Ett första exempel Variansanalys (ANOVA) Yi = a + bDi + ei Där: Yi = årslön för lärare i D är en dummyvariabel, Ovanstående modell ger oss följande betingade väntevärden: Genomsnittslön för kvinnlig lärare E(Yi | Di = 1) = a + b (= mk) Genomsnittslön för manlig lärare E(Yi | Di = 0) = a (= mm). mk - mm = a + b - a = b. 2005 © Rune Höglund Multipel regression
Dummyvariabler För ett empiriskt datamaterial får vi följande skattningar: med R2 = 0,87 Man kan också använda omvända värden för man/kvinna och får då i stället följande skattade modell: 2005 © Rune Höglund Multipel regression
Dummyvariabler Interceptet skiljer sig alltså åt, men de numeriska resultaten är samma. Lärdomen här är att det är viktigt för tolkningen hur värden sätts på dummy-variabeln. En ren variansanalysmodell som ovan är inte särskilt vanlig i ekonometrin. Vi vill oftast också inkludera en eller flera kvantitativa variabler som förklaring. Detta leder till vad som kallas kovariansanalys (ANCOVA). 2005 © Rune Höglund Multipel regression
Dummyvariabler En kvantitativ och en kvalitativ förklaringsvariabel Exemplet med lärarlöner igen: Yi = a1 + a2 Di + b Xi + ei Där: Yi = årslön Xi = antal år som lärare Detta ger: Genomsnittslön för kvinnlig lärare: 2005 © Rune Höglund Multipel regression
Dummyvariabler E(Yi | Di = 1) = (a1 + a2) + bXi Genomsnittslön för manlig lärare: E(Yi | Di = 0) =a1 + bXi Lutningen blir den samma för båda dessa fall. Det tolkas som att löneutvecklingen är parallell för män och kvinnor, men samtidigt startar man på olika nivå beroende på kön. Lönedifferensen i absoluta belopp behålls alltså över hela den yrkesverksamma perioden. 2005 © Rune Höglund Multipel regression
Dummyvariabler Att definiera dummyvariabler Vi kan nu testa om det verkligen föreligger någon signifikant skillnad i startlön mellan könen. Detta görs på vanligt sätt med t-test avseende skattningen för a2. Att definiera dummyvariabler Följande allmänna regel kan definieras: Om en kvalitativ variabel har m kategorier introducerar vi m – 1 dummyvariabler för denna variabel. 2005 © Rune Höglund Multipel regression
Dummyvariabler En kvalitativ variabel med flera kategorier Om vi introducerar alltför många dummy-variabler hamnar vi i den s k dummyvariabel-fällan (perfekt kollinearitet). En kvalitativ variabel med flera kategorier Antag att vi är intresserade av att testa om börsindex skiljer åt olika veckodagar (måndag - fredag). Vi har fem ”kategorier”, varför enligt regeln ovan fyra dummyvariabler behöver introduceras. Det görs enligt följande (vi väljer onsdag som basdag): 2005 © Rune Höglund Multipel regression
Dummyvariabler Vi kan nu ställa upp följande modell LN_VAi = g1 + g2 D1i + g3 D2i + g4 D3i + g5 D4i + + g6 LN_LAGDJi + g7 LN_SSVXi + g8 LN_USDi + ei Vi erhåller följande betingade väntevärden: VA-index, måndag: E(Yi | D1 = 1, D2 = 0, D3 = 0, D4 = 0, LN_LAGDJi, LN_SSVXi, LN_USDi ) = (g1 + g2) + g6 LN_LAGDJi + g7 LN_SSVXi + g8 LN_USDi 2005 © Rune Höglund Multipel regression
Dummyvariabler VA-index, onsdag etc..... E(Yi | D1 = 0, D2 = 0, D3 = 0, D4 = 0, LN_LAGDJi, LN_SSVXi, LN_USDi ) = g1 + g6 LN_LAGDJi + g7 LN_SSVXi + g8 LN_USDi etc..... 2005 © Rune Höglund Multipel regression
F-test för en tilläggsvariabel ’Tilläggs’ eller ’marginella’ bidraget av en förklarande variabel Anta mod: Yi = b0 + b1X1i + b2X2i + ei och skattningarna signifikanta. Antag att variablerna X1 resp. X2 införs sekventiellt 1) Yi = b0 + b1X1i + ei* 2) Yi = b0 + b1X1i + b2X2i + ei Bidrar X2 signifikant till förklaringen av Y? Steg 1: skattar 1) => RSS1 =RMS1, ESS1, MSE1 Steg 2: skattar 2) => RSS2, RMS2, ESS2, MSE2 2005 © Rune Höglund Multipel regression
F-test för en tilläggsvariabel Steg 3: Bestäm tilläggsbidraget för X2 med 2005 © Rune Höglund Multipel regression
F-test för flera parametrar Antag mod: Yi = b0 + b1X1i + b2X2i + …+ bkXki + ei Kallar denna den ’fulla’ modellen, FM Vill testa om en delmängd om q regressionskoeffici-enter är 0. Skriver ekv. Yi = b0 + b1X1i + b2X2i + …+ bk-qXk-q,i + bk-q+1Xk-q+1,i + ... + bk Xki + ei Är de q sista bi:na = 0, är den korrekta modellen Yi = b0 + b1X1i + b2X2i + …+ bk-qXk-q,i + ei Kallar denna för den ’begränsade’ modellen, BM 2005 © Rune Höglund Multipel regression
F-test för flera parametrar H0: bk-q+1 = ... = bk = 0 Skattar FM och BM => ESSBM > ESSFM RSSBM < RSSFM R2BM < R2FM Är H0 sann är skillnaderna mellan FM och BM storheterna små. Testvariabeln är 2005 © Rune Höglund Multipel regression
Test av om två regressionsskoefficienter är lika Antag mod: Yi = b0 + b1X1i + b2X2i + ei Testar H0: b1 = b2 b1 – b2 = 0 H1: b1 b2 b1 – b2 0 Skattar modellen (FM) I. Under klassiska antaganden gäller att och då H0 sann: 2005 © Rune Höglund Multipel regression
Test av om två regressionsskoefficienter är lika II. Vi skattar den begränsade modellen Yi = b0 + b1(X1i + X2i) + ui (BM) => ESSBM 2005 © Rune Höglund Multipel regression
Test av linjära restriktioner Antag mod: Yi = b0 + b1X1i + b2X2i + ei , (FM) H0: b1 + b2 = 1; H1: b1 + b2 1 I. t-testet. Skattar FM II. F-testet. H0: b1 + b2 = 1 b1 = 1 - b2 b2 = 1 – b1 Kan skriva modellen: Yi = b0 + (1- b2)X1i + b2X2i + ei 2005 © Rune Höglund Multipel regression
Test av linjära restriktioner = b0 + X1i + b2(X2i - X1i) + ei Yi - X1i = b0 + b2(X2i - X1i) + ei , (BM) Skattar denna modell => testvariabeln 2005 © Rune Höglund Multipel regression
Samma koefficienter i skilda regressioner? Vi frågar oss om en modell gäller för två skilda datauppsättningar. T.ex. lönefunktionen för manliga och kvinnliga lärare. Nollhypotesen: regressions-modellerna identiska. 1) Yi = b0 + b1X1i + b2X2i + …+ bkXki + ei , i = 1, ..., n 2) Yj = a0 + a1X1j + a2X2j + …+ akXkj + uj , j = 1, ..., m Skattar 1) & 2) => ESS1, ESS2 ESSFM = ESS1 + ESS2 ; df = (n-(k+1))+(m-(k+1)) = n + m – 2(k+1) 2005 © Rune Höglund Multipel regression
Samma koefficienter i skilda regressioner? Antag att H0: a0=b0, a1=b1, ..., ak=bk och se2=su2 => Yi = b0 + b1X1i + b2X2i + …+ bkXki + ei , i = 1, ..., n+m Skattar denna BM modell => ESSBM Vi testar om det är någon skillnad mellan de två grupperna. Har vi tidsseriedata kan vi jämföra två tidsperioder med varandra, s.k. Chow-test. 2005 © Rune Höglund Multipel regression
Samma koefficienter i skilda regressioner? Testet kan generaliseras till flera, säg p regressionsmodeller ESSFM = ESS1 + ESS2 + ... + ESSp BM som ovan => ESSEM N = n1 + n2 + ... + np 2005 © Rune Höglund Multipel regression
Bitvis linjär regression Tillåter en förändring i lutningen, men med restriktionen att regressionslinjen är kontinuerlig Yt = b0 + b1 Xt + b2 (Xt – Xt0)Dt + ei E(Yt| t # t0) = b0 + b1 Xt E(Yt| t > t0) = b0 + b1 Xt + b2 (Xt – Xt0) = (b0 - b2 Xt0) + (b1 + b2)Xt 2005 © Rune Höglund Multipel regression
Switching regression Strukturförändringar som inte behöver ge en kontinuerlig linje. Antar att residualvariansen är oförändrad, men intercept och lutning kan ändra. Yt = b0 + b1 Xt + b2 Dt + b3 DtXt + ei Då brytningstidpunkten t0 är känd: Är brytningstidpunkten okänd måste den skattas. 2005 © Rune Höglund Multipel regression
Switching regression Antag en brytningstidpunkt t* Y t(1) = b0 + b1X1t + b2X2t + …+ bkXkt + e t(1) , t # t* Y t(2) = a0 + a1X1t + a2X2t + …+ akXkt + et(2) , t > t* t = 1, ..., T Använder m-l metoden. Utan härledning: Låt t* anta alla värden t* kan anta, dvs t* = k+1, k+2, ..., T-(k+1). 2005 © Rune Höglund Multipel regression
Switching regression Beräkna Välj som skattning för brytningstidpunkten det värde på t* som maximerar l(t*) eller ekvivalent som maximerar Skatta regressionsmodellen och testa parametrarna t.ex. med Chow testet 2005 © Rune Höglund Multipel regression
Stokastiska förklarande variabler Vad händer om X-variablerna är stokastiska? Anta att: Fördelningen för alla X är oberoende av b Alla X är fördelade oberoende av e då är alla grundläggande egenskaper för minsta-kvadratestimatorerna fortfarande giltiga. Vi antar att b skattas betingat av X-värdena 2005 © Rune Höglund Multipel regression
Stokastiska förklarande variabler Väntevärdesriktighet kan inte garanteras om vi undersöker OLS obetingade egenskaper. Dock gäller att OLS-estimatorerna är konsistenta och asymptotiskt effektiva. Minsta-kvadratestimatorerna är maximum-likelihoodestimatorer av de sanna b. 2005 © Rune Höglund Multipel regression