Ladda ner presentationen
Presentation laddar. Vänta.
1
2. Enkel regressionsanalys
Regressionsanalysens grunder 2. Enkel regressionsanalys 2005 © Rune Höglund Enkel regression
2
Vad är regressionsanalys?
Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). 2005 © Rune Höglund Enkel regression
3
Vad är regressionsanalys?
Exempel: Skatta privata konsumtionens beroende av reell disponibel inkomst. Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). Skatta sambandet mellan reklam och försäljning. 2005 © Rune Höglund Enkel regression
4
Begrepp, termer och datatyper
Deterministiska – statistiska samband Statistiska – kausala samband Terminologi: Beroende variabel, Yi (eller Yt) Förklarande variabel, Xi (eller Xt) Datatyper: Tidsseriedata Tvärsnittsdata Poolat data 2005 © Rune Höglund Enkel regression
5
Populationens regressionskurva och funktion
Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = b0 + b1 Xi Detta är ekvationen för en rät linje 2005 © Rune Höglund Enkel regression
6
Populationens regressionskurva och funktion
2005 © Rune Höglund Enkel regression
7
Linjär i variablerna/parametrarna
X men ej: X2, X½, X·Z Linjär i parametrarna: b1 men ej: Med linjär regression avses en modell som är linjär i parametrarna. 2005 © Rune Höglund Enkel regression
8
Den linjära regressionsmodellen
Stokastisk specifikation av populationens regressionsfunktion Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm: ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei Den linjära regressionsmodellen kan då skrivas som: Yi = b0 + b1 Xi + ei där E(ei | Xi) = 0 2005 © Rune Höglund Enkel regression
9
Stokastisk felterm Varför behövs den stokastiska feltermen, ei?
Vag teori Otillgängliga data Centrala kontra perifera variabler Inre slumpmässighet i det mänskliga beteendet Dåliga proxyvariabler Sparsamhetsprincipen Fel funktionell form 2005 © Rune Höglund Enkel regression
10
Stickprovets regressionsfunktion
Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. 2005 © Rune Höglund Enkel regression
11
Skattningsproblemet Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: Minsta kvadratmetoden innebär att vi minimerar som är en funktion av estimatorerna och . 2005 © Rune Höglund Enkel regression
12
Regressionslinjens egenskaper
Linjen går genom punkten Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. Medelvärdet för (och summan av) alla residualer är noll. Residualerna är okorrelerade med de skattade Y-värdena. Residualerna är okorrelerade med Xi. 2005 © Rune Höglund Enkel regression
13
Antaganden bakom minsta-kvadratmetoden
ia) Linjär regressionsmodell ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen Y = b + b (1/ X ) i 1 2 i Y = a + a X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % 2005 © Rune Höglund Enkel regression
14
Antaganden bakom minsta-kvadratmetoden
iia) X-värdena är fixa vid upprepade stickprov iib) variation i X-värdena iiia) Medelvärdet är noll för ei, E(ei) = 0, 2005 © Rune Höglund Enkel regression
15
iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2,
2005 © Rune Höglund Enkel regression
16
Antaganden bakom minsta-kvadratmetoden
iiic) Ingen (auto)korrelation mellan ei:na 2005 © Rune Höglund Enkel regression
17
Antaganden bakom minsta-kvadratmetoden
iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres sionsmodellen. iiid) viktig för inferensen 2005 © Rune Höglund Enkel regression
18
Standardfel och BLUE Gauss-Markovs sats:
Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y) 2005 © Rune Höglund Enkel regression
19
Medelfel och BLUE Standardavvikelse och kovarians för minsta-kvadratskattningarna 2005 © Rune Höglund Enkel regression
20
Standardfel och BLUE enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende | och OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad Standardavvikelsen s skattas med 2005 © Rune Höglund Enkel regression
21
Standardfel och BLUE s brukar även kallas regressionens medelfel
Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med 2005 © Rune Höglund Enkel regression
22
Konfidensintervall Konfidensintervall för regressions- koefficienterna och feltermens varians då skattningarna är normalfördelade standardiserar vi och får standardavvikelsen (sd) för skattningen innehåller s, vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e) 2005 © Rune Höglund Enkel regression
23
Konfidensintervall Ett 100 · (1–a) procents konfidensintervall för bi
då gäller att Ett 100 · (1–a) procents konfidensintervall för bi ges av, För variansen gäller 2005 © Rune Höglund Enkel regression
24
Konfidensintervall vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a 2005 © Rune Höglund Enkel regression
25
Test testvariabeln är Då vi testar på signifikansnivån a har vi att
H0 förkastas om för ett tvåsidigt test och för ett ensidigt om 2005 © Rune Höglund Enkel regression
26
OBS! Ofta testas H0: bi = 0, H1: bi 0
t-kvoten i datorutskrifter 2005 © Rune Höglund Enkel regression
27
R2, variansanalys och korrelation
Anpassningsgraden residualerna anger hur bra regressionslinjen anpassas till observationerna| liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad residualernas värde (storlek) beror på mätenhet residualvariansen är 2005 © Rune Höglund Enkel regression
28
R2, variansanalys och korrelation
residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna variationen i Y mäts med kvadratsumman 3(Yi – Y )2 korsproduktsumman är 0, så vi får eller 2005 © Rune Höglund Enkel regression
29
R2, variansanalys och korrelation
totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS RSS Vi dividerar med TSS | 1 = ESS/TSS + RSS/TSS Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. 2005 © Rune Höglund Enkel regression
30
R2, variansanalys och korrelation
R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att 2005 © Rune Höglund Enkel regression
31
R2, variansanalys och korrelation
Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell 2005 © Rune Höglund Enkel regression
32
R2, variansanalys och korrelation
Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta 2005 © Rune Höglund Enkel regression
33
Konfidensintervall E(Y|Xi), Yi
Yi ~ N(b0 + b1 Xi, s2) . Prediktion av medelvärdet E(Y | X = Xi) E(Y | X = Xi) skattas med Prediktion av ett individuellt Y-värde Y för ett givet X predikteras på samma sätt som ovan Konfidensintervallen beräknas därefter på vanligt sätt. 2005 © Rune Höglund Enkel regression
34
Konfidensintervall 2005 © Rune Höglund Enkel regression
35
Rapportering av resultat
Utvärdering av regressionsanalysens resultat Är tecken på de skattade koefficienterna rimliga? Är koefficienterna statistiskt signifikant ¹ 0? Är andelen förklarad variation tillfredsställande? Är feltermen normalfördelad? 2005 © Rune Höglund Enkel regression
36
Normalfördelningstest
Jarque-Beras (JB) normalfördelningstest Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) JB är asymptotiskt c2-fördelad med 2 frihetsgr. Förkasta nollhypotesen om JB > kritiskt värde. 2005 © Rune Höglund Enkel regression
37
Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet
Log-lin, Lin-log, Reciprok 2005 © Rune Höglund Enkel regression
38
Tolkning av SPSS-utskrift
2005 © Rune Höglund Enkel regression
39
Tolkning av SPSS-utskrift
2005 © Rune Höglund Enkel regression
40
Tolkning av SPSS-utskrift
2005 © Rune Höglund Enkel regression
41
Maximum-likelihoodskattningar
Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar 2005 © Rune Höglund Enkel regression
42
Maximum-likelihoodskattningar
För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen 2005 © Rune Höglund Enkel regression
43
Maximum-likelihoodskattningar
Vi maximerar L( ), m.a.p. b0, b1, s2. Blir enklare om vi logaritmerar L( ) 2005 © Rune Höglund Enkel regression
44
Maximum-likelihoodskattningar
Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | 2005 © Rune Höglund Enkel regression
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.