2. Enkel regressionsanalys Regressionsanalysens grunder 2. Enkel regressionsanalys 2005 © Rune Höglund Enkel regression
Vad är regressionsanalys? Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). 2005 © Rune Höglund Enkel regression
Vad är regressionsanalys? Exempel: Skatta privata konsumtionens beroende av reell disponibel inkomst. Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). Skatta sambandet mellan reklam och försäljning. 2005 © Rune Höglund Enkel regression
Begrepp, termer och datatyper Deterministiska – statistiska samband Statistiska – kausala samband Terminologi: Beroende variabel, Yi (eller Yt) Förklarande variabel, Xi (eller Xt) Datatyper: Tidsseriedata Tvärsnittsdata Poolat data 2005 © Rune Höglund Enkel regression
Populationens regressionskurva och funktion Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = b0 + b1 Xi Detta är ekvationen för en rät linje 2005 © Rune Höglund Enkel regression
Populationens regressionskurva och funktion 2005 © Rune Höglund Enkel regression
Linjär i variablerna/parametrarna X men ej: X2, X½, X·Z Linjär i parametrarna: b1 men ej: Med linjär regression avses en modell som är linjär i parametrarna. 2005 © Rune Höglund Enkel regression
Den linjära regressionsmodellen Stokastisk specifikation av populationens regressionsfunktion Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm: ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei Den linjära regressionsmodellen kan då skrivas som: Yi = b0 + b1 Xi + ei där E(ei | Xi) = 0 2005 © Rune Höglund Enkel regression
Stokastisk felterm Varför behövs den stokastiska feltermen, ei? Vag teori Otillgängliga data Centrala kontra perifera variabler Inre slumpmässighet i det mänskliga beteendet Dåliga proxyvariabler Sparsamhetsprincipen Fel funktionell form 2005 © Rune Höglund Enkel regression
Stickprovets regressionsfunktion Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. 2005 © Rune Höglund Enkel regression
Skattningsproblemet Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: Minsta kvadratmetoden innebär att vi minimerar som är en funktion av estimatorerna och . 2005 © Rune Höglund Enkel regression
Regressionslinjens egenskaper Linjen går genom punkten . Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. Medelvärdet för (och summan av) alla residualer är noll. Residualerna är okorrelerade med de skattade Y-värdena. Residualerna är okorrelerade med Xi. 2005 © Rune Höglund Enkel regression
Antaganden bakom minsta-kvadratmetoden ia) Linjär regressionsmodell ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen Y = b + b (1/ X ) i 1 2 i Y = a + a X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % 2005 © Rune Höglund Enkel regression
Antaganden bakom minsta-kvadratmetoden iia) X-värdena är fixa vid upprepade stickprov iib) variation i X-värdena iiia) Medelvärdet är noll för ei, E(ei) = 0, 2005 © Rune Höglund Enkel regression
iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2, 2005 © Rune Höglund Enkel regression
Antaganden bakom minsta-kvadratmetoden iiic) Ingen (auto)korrelation mellan ei:na 2005 © Rune Höglund Enkel regression
Antaganden bakom minsta-kvadratmetoden iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres- sionsmodellen. iiid) viktig för inferensen 2005 © Rune Höglund Enkel regression
Standardfel och BLUE Gauss-Markovs sats: Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y) 2005 © Rune Höglund Enkel regression
Medelfel och BLUE Standardavvikelse och kovarians för minsta-kvadratskattningarna 2005 © Rune Höglund Enkel regression
Standardfel och BLUE enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende | och OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad Standardavvikelsen s skattas med 2005 © Rune Höglund Enkel regression
Standardfel och BLUE s brukar även kallas regressionens medelfel Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med 2005 © Rune Höglund Enkel regression
Konfidensintervall Konfidensintervall för regressions- koefficienterna och feltermens varians då skattningarna är normalfördelade standardiserar vi och får standardavvikelsen (sd) för skattningen innehåller s, vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e) 2005 © Rune Höglund Enkel regression
Konfidensintervall Ett 100 · (1–a) procents konfidensintervall för bi då gäller att Ett 100 · (1–a) procents konfidensintervall för bi ges av, För variansen gäller 2005 © Rune Höglund Enkel regression
Konfidensintervall vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a 2005 © Rune Höglund Enkel regression
Test testvariabeln är Då vi testar på signifikansnivån a har vi att H0 förkastas om för ett tvåsidigt test och för ett ensidigt om 2005 © Rune Höglund Enkel regression
OBS! Ofta testas H0: bi = 0, H1: bi 0 t-kvoten i datorutskrifter 2005 © Rune Höglund Enkel regression
R2, variansanalys och korrelation Anpassningsgraden residualerna anger hur bra regressionslinjen anpassas till observationerna| liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad residualernas värde (storlek) beror på mätenhet residualvariansen är 2005 © Rune Höglund Enkel regression
R2, variansanalys och korrelation residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna variationen i Y mäts med kvadratsumman 3(Yi – Y )2 korsproduktsumman är 0, så vi får eller 2005 © Rune Höglund Enkel regression
R2, variansanalys och korrelation totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS + RSS Vi dividerar med TSS | 1 = ESS/TSS + RSS/TSS Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. 2005 © Rune Höglund Enkel regression
R2, variansanalys och korrelation R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att 2005 © Rune Höglund Enkel regression
R2, variansanalys och korrelation Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell 2005 © Rune Höglund Enkel regression
R2, variansanalys och korrelation Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta 2005 © Rune Höglund Enkel regression
Konfidensintervall E(Y|Xi), Yi Yi ~ N(b0 + b1 Xi, s2) . Prediktion av medelvärdet E(Y | X = Xi) E(Y | X = Xi) skattas med Prediktion av ett individuellt Y-värde Y för ett givet X predikteras på samma sätt som ovan Konfidensintervallen beräknas därefter på vanligt sätt. 2005 © Rune Höglund Enkel regression
Konfidensintervall 2005 © Rune Höglund Enkel regression
Rapportering av resultat Utvärdering av regressionsanalysens resultat Är tecken på de skattade koefficienterna rimliga? Är koefficienterna statistiskt signifikant ¹ 0? Är andelen förklarad variation tillfredsställande? Är feltermen normalfördelad? 2005 © Rune Höglund Enkel regression
Normalfördelningstest Jarque-Beras (JB) normalfördelningstest Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) JB är asymptotiskt c2-fördelad med 2 frihetsgr. Förkasta nollhypotesen om JB > kritiskt värde. 2005 © Rune Höglund Enkel regression
Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet Log-lin, Lin-log, Reciprok 2005 © Rune Höglund Enkel regression
Tolkning av SPSS-utskrift 2005 © Rune Höglund Enkel regression
Tolkning av SPSS-utskrift 2005 © Rune Höglund Enkel regression
Tolkning av SPSS-utskrift 2005 © Rune Höglund Enkel regression
Maximum-likelihoodskattningar Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar 2005 © Rune Höglund Enkel regression
Maximum-likelihoodskattningar För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen 2005 © Rune Höglund Enkel regression
Maximum-likelihoodskattningar Vi maximerar L( ), m.a.p. b0, b1, s2. Blir enklare om vi logaritmerar L( ) 2005 © Rune Höglund Enkel regression
Maximum-likelihoodskattningar Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | 2005 © Rune Höglund Enkel regression