Presentation laddar. Vänta.

Presentation laddar. Vänta.

2. Enkel regressionsanalys

Liknande presentationer


En presentation över ämnet: "2. Enkel regressionsanalys"— Presentationens avskrift:

1 2. Enkel regressionsanalys
Regressionsanalysens grunder 2. Enkel regressionsanalys 2005 © Rune Höglund Enkel regression

2 Vad är regressionsanalys?
Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). 2005 © Rune Höglund Enkel regression

3 Vad är regressionsanalys?
Exempel: Skatta privata konsumtionens beroende av reell disponibel inkomst. Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). Skatta sambandet mellan reklam och försäljning. 2005 © Rune Höglund Enkel regression

4 Begrepp, termer och datatyper
Deterministiska – statistiska samband Statistiska – kausala samband Terminologi: Beroende variabel, Yi (eller Yt) Förklarande variabel, Xi (eller Xt) Datatyper: Tidsseriedata Tvärsnittsdata Poolat data 2005 © Rune Höglund Enkel regression

5 Populationens regressionskurva och funktion
Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = b0 + b1 Xi Detta är ekvationen för en rät linje 2005 © Rune Höglund Enkel regression

6 Populationens regressionskurva och funktion
2005 © Rune Höglund Enkel regression

7 Linjär i variablerna/parametrarna
X men ej: X2, X½, X·Z Linjär i parametrarna: b1 men ej: Med linjär regression avses en modell som är linjär i parametrarna. 2005 © Rune Höglund Enkel regression

8 Den linjära regressionsmodellen
Stokastisk specifikation av populationens regressionsfunktion Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm: ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei Den linjära regressionsmodellen kan då skrivas som: Yi = b0 + b1 Xi + ei där E(ei | Xi) = 0 2005 © Rune Höglund Enkel regression

9 Stokastisk felterm Varför behövs den stokastiska feltermen, ei?
Vag teori Otillgängliga data Centrala kontra perifera variabler Inre slumpmässighet i det mänskliga beteendet Dåliga proxyvariabler Sparsamhetsprincipen Fel funktionell form 2005 © Rune Höglund Enkel regression

10 Stickprovets regressionsfunktion
Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. 2005 © Rune Höglund Enkel regression

11 Skattningsproblemet Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: Minsta kvadratmetoden innebär att vi minimerar som är en funktion av estimatorerna och . 2005 © Rune Höglund Enkel regression

12 Regressionslinjens egenskaper
Linjen går genom punkten Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. Medelvärdet för (och summan av) alla residualer är noll. Residualerna är okorrelerade med de skattade Y-värdena. Residualerna är okorrelerade med Xi. 2005 © Rune Höglund Enkel regression

13 Antaganden bakom minsta-kvadratmetoden
ia) Linjär regressionsmodell ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen Y = b + b (1/ X ) i 1 2 i Y = a + a X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % 2005 © Rune Höglund Enkel regression

14 Antaganden bakom minsta-kvadratmetoden
iia) X-värdena är fixa vid upprepade stickprov iib) variation i X-värdena iiia) Medelvärdet är noll för ei, E(ei) = 0, 2005 © Rune Höglund Enkel regression

15 iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2,
2005 © Rune Höglund Enkel regression

16 Antaganden bakom minsta-kvadratmetoden
iiic) Ingen (auto)korrelation mellan ei:na 2005 © Rune Höglund Enkel regression

17 Antaganden bakom minsta-kvadratmetoden
iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres sionsmodellen. iiid) viktig för inferensen 2005 © Rune Höglund Enkel regression

18 Standardfel och BLUE Gauss-Markovs sats:
Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y) 2005 © Rune Höglund Enkel regression

19 Medelfel och BLUE Standardavvikelse och kovarians för minsta-kvadratskattningarna 2005 © Rune Höglund Enkel regression

20 Standardfel och BLUE enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende | och OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad Standardavvikelsen s skattas med 2005 © Rune Höglund Enkel regression

21 Standardfel och BLUE s brukar även kallas regressionens medelfel
Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med 2005 © Rune Höglund Enkel regression

22 Konfidensintervall Konfidensintervall för regressions- koefficienterna och feltermens varians då skattningarna är normalfördelade standardiserar vi och får standardavvikelsen (sd) för skattningen innehåller s, vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e) 2005 © Rune Höglund Enkel regression

23 Konfidensintervall Ett 100 · (1–a) procents konfidensintervall för bi
då gäller att Ett 100 · (1–a) procents konfidensintervall för bi ges av, För variansen gäller 2005 © Rune Höglund Enkel regression

24 Konfidensintervall vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a 2005 © Rune Höglund Enkel regression

25 Test testvariabeln är Då vi testar på signifikansnivån a har vi att
H0 förkastas om för ett tvåsidigt test och för ett ensidigt om 2005 © Rune Höglund Enkel regression

26 OBS! Ofta testas H0: bi = 0, H1: bi 0
t-kvoten i datorutskrifter 2005 © Rune Höglund Enkel regression

27 R2, variansanalys och korrelation
Anpassningsgraden residualerna anger hur bra regressionslinjen anpassas till observationerna| liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad residualernas värde (storlek) beror på mätenhet residualvariansen är 2005 © Rune Höglund Enkel regression

28 R2, variansanalys och korrelation
residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna variationen i Y mäts med kvadratsumman 3(Yi – Y )2 korsproduktsumman är 0, så vi får eller 2005 © Rune Höglund Enkel regression

29 R2, variansanalys och korrelation
totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS RSS Vi dividerar med TSS | 1 = ESS/TSS + RSS/TSS Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. 2005 © Rune Höglund Enkel regression

30 R2, variansanalys och korrelation
R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att 2005 © Rune Höglund Enkel regression

31 R2, variansanalys och korrelation
Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell 2005 © Rune Höglund Enkel regression

32 R2, variansanalys och korrelation
Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta 2005 © Rune Höglund Enkel regression

33 Konfidensintervall E(Y|Xi), Yi
Yi ~ N(b0 + b1 Xi, s2) . Prediktion av medelvärdet E(Y | X = Xi) E(Y | X = Xi) skattas med Prediktion av ett individuellt Y-värde Y för ett givet X predikteras på samma sätt som ovan Konfidensintervallen beräknas därefter på vanligt sätt. 2005 © Rune Höglund Enkel regression

34 Konfidensintervall 2005 © Rune Höglund Enkel regression

35 Rapportering av resultat
Utvärdering av regressionsanalysens resultat Är tecken på de skattade koefficienterna rimliga? Är koefficienterna statistiskt signifikant ¹ 0? Är andelen förklarad variation tillfredsställande? Är feltermen normalfördelad? 2005 © Rune Höglund Enkel regression

36 Normalfördelningstest
Jarque-Beras (JB) normalfördelningstest Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) JB är asymptotiskt c2-fördelad med 2 frihetsgr. Förkasta nollhypotesen om JB > kritiskt värde. 2005 © Rune Höglund Enkel regression

37 Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet
Log-lin, Lin-log, Reciprok 2005 © Rune Höglund Enkel regression

38 Tolkning av SPSS-utskrift
2005 © Rune Höglund Enkel regression

39 Tolkning av SPSS-utskrift
2005 © Rune Höglund Enkel regression

40 Tolkning av SPSS-utskrift
2005 © Rune Höglund Enkel regression

41 Maximum-likelihoodskattningar
Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar 2005 © Rune Höglund Enkel regression

42 Maximum-likelihoodskattningar
För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen 2005 © Rune Höglund Enkel regression

43 Maximum-likelihoodskattningar
Vi maximerar L( ), m.a.p. b0, b1, s2. Blir enklare om vi logaritmerar L( ) 2005 © Rune Höglund Enkel regression

44 Maximum-likelihoodskattningar
Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | 2005 © Rune Höglund Enkel regression


Ladda ner ppt "2. Enkel regressionsanalys"

Liknande presentationer


Google-annonser