2. Enkel regressionsanalys

2. Enkel regressionsanalys
Regressionsanalysens grunder 2. Enkel regressionsanalys 2005 © Rune Höglund Enkel regression

Vad är regressionsanalys?
Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). 2005 © Rune Höglund Enkel regression

Vad är regressionsanalys?
Exempel: Skatta privata konsumtionens beroende av reell disponibel inkomst. Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). Skatta sambandet mellan reklam och försäljning. 2005 © Rune Höglund Enkel regression

Begrepp, termer och datatyper
Deterministiska – statistiska samband Statistiska – kausala samband Terminologi: Beroende variabel, Yi (eller Yt) Förklarande variabel, Xi (eller Xt) Datatyper: Tidsseriedata Tvärsnittsdata Poolat data 2005 © Rune Höglund Enkel regression

Populationens regressionskurva och funktion
Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = b0 + b1 Xi Detta är ekvationen för en rät linje 2005 © Rune Höglund Enkel regression

Populationens regressionskurva och funktion
2005 © Rune Höglund Enkel regression

Linjär i variablerna/parametrarna
X men ej: X2, X½, X·Z Linjär i parametrarna: b1 men ej: Med linjär regression avses en modell som är linjär i parametrarna. 2005 © Rune Höglund Enkel regression

Den linjära regressionsmodellen
Stokastisk specifikation av populationens regressionsfunktion Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm: ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei Den linjära regressionsmodellen kan då skrivas som: Yi = b0 + b1 Xi + ei där E(ei | Xi) = 0 2005 © Rune Höglund Enkel regression

Stokastisk felterm Varför behövs den stokastiska feltermen, ei?
Vag teori Otillgängliga data Centrala kontra perifera variabler Inre slumpmässighet i det mänskliga beteendet Dåliga proxyvariabler Sparsamhetsprincipen Fel funktionell form 2005 © Rune Höglund Enkel regression

Stickprovets regressionsfunktion
Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. 2005 © Rune Höglund Enkel regression

Skattningsproblemet Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: Minsta kvadratmetoden innebär att vi minimerar som är en funktion av estimatorerna och . 2005 © Rune Höglund Enkel regression

Regressionslinjens egenskaper
Linjen går genom punkten Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. Medelvärdet för (och summan av) alla residualer är noll. Residualerna är okorrelerade med de skattade Y-värdena. Residualerna är okorrelerade med Xi. 2005 © Rune Höglund Enkel regression

Antaganden bakom minsta-kvadratmetoden
ia) Linjär regressionsmodell ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen Y = b + b (1/ X ) i 1 2 i Y = a + a X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % 2005 © Rune Höglund Enkel regression

iia) X-värdena är fixa vid upprepade stickprov iib) variation i X-värdena iiia) Medelvärdet är noll för ei, E(ei) = 0, 2005 © Rune Höglund Enkel regression

iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2,

iiic) Ingen (auto)korrelation mellan ei:na 2005 © Rune Höglund Enkel regression

iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres sionsmodellen. iiid) viktig för inferensen 2005 © Rune Höglund Enkel regression

Standardfel och BLUE Gauss-Markovs sats:
Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y) 2005 © Rune Höglund Enkel regression

Medelfel och BLUE Standardavvikelse och kovarians för minsta-kvadratskattningarna 2005 © Rune Höglund Enkel regression

Standardfel och BLUE enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende | och OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad Standardavvikelsen s skattas med 2005 © Rune Höglund Enkel regression

Standardfel och BLUE s brukar även kallas regressionens medelfel
Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med 2005 © Rune Höglund Enkel regression

Konfidensintervall Konfidensintervall för regressions- koefficienterna och feltermens varians då skattningarna är normalfördelade standardiserar vi och får standardavvikelsen (sd) för skattningen innehåller s, vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e) 2005 © Rune Höglund Enkel regression

Konfidensintervall Ett 100 · (1–a) procents konfidensintervall för bi
då gäller att Ett 100 · (1–a) procents konfidensintervall för bi ges av, För variansen gäller 2005 © Rune Höglund Enkel regression

Konfidensintervall vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a 2005 © Rune Höglund Enkel regression

Test testvariabeln är Då vi testar på signifikansnivån a har vi att
H0 förkastas om för ett tvåsidigt test och för ett ensidigt om 2005 © Rune Höglund Enkel regression

OBS! Ofta testas H0: bi = 0, H1: bi 0
t-kvoten i datorutskrifter 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation
Anpassningsgraden residualerna anger hur bra regressionslinjen anpassas till observationerna| liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad residualernas värde (storlek) beror på mätenhet residualvariansen är 2005 © Rune Höglund Enkel regression

residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna variationen i Y mäts med kvadratsumman 3(Yi – Y )2 korsproduktsumman är 0, så vi får eller 2005 © Rune Höglund Enkel regression

totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS RSS Vi dividerar med TSS | 1 = ESS/TSS + RSS/TSS Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. 2005 © Rune Höglund Enkel regression

R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att 2005 © Rune Höglund Enkel regression

Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell 2005 © Rune Höglund Enkel regression

Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta 2005 © Rune Höglund Enkel regression

Konfidensintervall E(Y|Xi), Yi
Yi ~ N(b0 + b1 Xi, s2) . Prediktion av medelvärdet E(Y | X = Xi) E(Y | X = Xi) skattas med Prediktion av ett individuellt Y-värde Y för ett givet X predikteras på samma sätt som ovan Konfidensintervallen beräknas därefter på vanligt sätt. 2005 © Rune Höglund Enkel regression

Rapportering av resultat
Utvärdering av regressionsanalysens resultat Är tecken på de skattade koefficienterna rimliga? Är koefficienterna statistiskt signifikant ¹ 0? Är andelen förklarad variation tillfredsställande? Är feltermen normalfördelad? 2005 © Rune Höglund Enkel regression

Normalfördelningstest
Jarque-Beras (JB) normalfördelningstest Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) JB är asymptotiskt c2-fördelad med 2 frihetsgr. Förkasta nollhypotesen om JB > kritiskt värde. 2005 © Rune Höglund Enkel regression

Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet
Log-lin, Lin-log, Reciprok 2005 © Rune Höglund Enkel regression

Tolkning av SPSS-utskrift

Maximum-likelihoodskattningar
Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar 2005 © Rune Höglund Enkel regression

För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen 2005 © Rune Höglund Enkel regression

Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | 2005 © Rune Höglund Enkel regression

2. Enkel regressionsanalys

Liknande presentationer

En presentation över ämnet: "2. Enkel regressionsanalys"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

2. Enkel regressionsanalys

Liknande presentationer

En presentation över ämnet: "2. Enkel regressionsanalys"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss