Presentation laddar. Vänta.

Presentation laddar. Vänta.

Föreläsning 3 732G05 Regressions- och tidsserieanalys.

Liknande presentationer


En presentation över ämnet: "Föreläsning 3 732G05 Regressions- och tidsserieanalys."— Presentationens avskrift:

1 Föreläsning 3 732G05 Regressions- och tidsserieanalys

2  En påbyggnad på enkel linjär regression  Beskriva en beroende variabel y utifrån k stycken förklarande variabler x 1, x 2, …, x k 2 Multipel linjär regression  Där ε är feltermen (error term), som står för den del av variationen i y som inte kan förklaras av modellen. Feltermen antas:  Ha medelvärde 0  Ha konstant varians σ 2  Vara normalfördelad  Vara oberoende av andra ε

3 Multipel linjär regression Kvadratsummor och varians  Samma beräkningar för SST och SSR  Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande  SSE beräknas på samma sätt som innan: 3  Variansen (σ 2 ) skattas med MSE:  Standardavvikelsen (σ) skattas med:

4 Multipel linjär regression Hur utreda om modellen är bra? 1.F-test (Overall F-test, testar hela modellen) H 0 : Alla parametrar (β 1, β 2,…, β k ) är lika med noll H a : Minst en av parametrarna är skild från noll 4 Där k är antalet parametrar i modellen Detta värde jämförs med F α med k och n-k-1 frihetsgrader 2.T-test (testar varje enskild variabel) Beräknas på samma sätt som i enkel linjär regression Skillnad är att t-fördelning med n-k-1 frihetsgrader används

5 Multipel linjär regression Hur utreda om modellen är bra? 3.Förklaringsgrad (R 2 )  Beräknas och tolkas på samma sätt som i enkel linjär regression 4.Justerad förklaringsgrad ( )  R 2 ökar alltid när en ny förklarande variabel läggs till i modellen  Den justerade förklaringsgraden tar hänsyn till antalet förklarande variabler  Denna ska användas vid jämförelse av modeller med olika antal förklarande variabler 5 2

6 Multipel linjär regression Exempel 1  Ett datamaterial bestående av 150 slumpmässigt valda husförsäljningar i USA NameAntalBeskrivning Modell Price150Pris y Area150Area i kvadratfotx1 Acres150Tomtyta i tunnlandx2 Rooms150Antal rumx3 Baths150Antal badrumx4  Vi vill undersöka hur priset beror på de förklarande variablerna 6

7 Multipel linjär regression Exempel 1 7 Pris mot bostadsyta

8 Multipel linjär regression Exempel 1 8 Pris mot tomtyta

9 Multipel linjär regression Exempel 1 9 Pris mot antal rum

10 Multipel linjär regression Exempel 1 10 Pris mot antal badrum

11 Multipel linjär regression Exempel 1  Minitab: Stat → Regression → Regression 11

12 Multipel linjär regression Exempel 1 12 Regression Analysis: Price versus Area; Rooms The regression equation is Price = ,7 Area Rooms Predictor CoefSE CoefTP Constant ,030,000 Area49,6737,5076,620,000 Rooms ,050,962 S = 30047,0 R-Sq = 48,6% R-Sq(adj) = 47,9% Analysis of Variance Source DFSS MSFP Regression 2 1,25273E ,38 0,000 Residual Error 147 1,32715E Total 149 2,57989E+11

13 Multipel linjär regression Punktskattningar  En vanlig tillämpning av multipel linjär regression är att man vill skatta (prediktera) värden för nya observationer  Punktskattning (punktprediktion beräknas på samma sätt): 13  Punktskattning (point estimate):  Det skattade medelvärdet på y för alla observationer med de givna värdena på x  Punktprediktion (point prediction):  Värdet en individuell observation väntas ha på y med de givna värdena på x

14 Multipel linjär regression Intervallskattningar  Konfidensintervall (hör till punktskattning)  Ett intervall för medelvärdet på y med de givna värdena på x 14  Prediktionsintervall (hör till punktprediktion)  Ett intervall för värdet på y för en individuell observation med de givna värdena på x  ”Distance value” fås från datorutskrift  Minitab: SE Fit =

15 Multipel linjär regression Exempel punktskattningar och intervallskattningar  Ett intervall för hus med area 3000 kvadratfot och 6 rum  Minitab: Stat → Regression → Regression → Options 15

16 Multipel linjär regression Exempel punktskattningar och intervallskattningar 16 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI (188076; ) (148229; )XX XX denotes a point that is an extreme outlier in the predictors.

17 Multipel linjär regression Exempel punktskattningar och intervallskattningar 17 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI (188076; ) (148229; )XX XX denotes a point that is an extreme outlier in the predictors.  Minitab indikerar att vår prediktion inte är helt pålitlig  Vad kan detta bero på?

18 Multipel linjär regression Exempel punktskattningar och intervallskattningar 18

19 Multipel linjär regression Exempel Pris Area Rum  Kombination 3000 kvadratfot och 6 rum finns ej i datamaterialet  Är vår modell giltig för den prediktion vi ville genomföra?

20 Multipel linjär regression Kvadratiska och kubiska termer  Det kan vara ett annat samband än linjärt mellan den beroende variabeln och en förklarande variabel  Då kan man inkludera en kvadratisk eller kubisk term i regressionsmodellen  Antal rum kan tyckas ha ett kvadratiskt samband med pris, en modell där pris förklaras av antal rum och antal rum i kvadrat har följande utseende: 20 y=β 0 + β 3 ·x 3 + β 5 ·x ε

21 Multipel linjär regression Exempel kvadratiska och kubiska termer 21

22 Multipel linjär regression Exempel kvadratiska och kubiska termer 22 Regression Analysis: Price versus Rooms; Rooms**2 The regression equation is Price = Rooms Rooms**2 Predictor CoefSE CoefTP Constant ,180,240 Rooms ,790,000 Rooms** ,4698,8-2,300,023 S = 33631,2 R-Sq = 35,6% R-Sq(adj) = 34,7%  Ingen praktisk tolkning av b 2  Kan även användas kubiska termer  Originalvariabeln behålls alltid i modellen!

23 Multipel linjär regression Samspelstermer (interaktionstermer)  Det behöver inte vara ett kvadratiskt samband mellan den oberoende variabeln och den förklarande variabeln  Det kan vara så att den förklarande variabeln samspelar med en annan förklarande variabel  Relationen mellan den oberoende variabeln och en förklarande variabel kan vara beroende på värdet på en annan förklarande variabel  Då bildar man en samspelsterm (interaktionsterm), vilket beskrivs i kommande exempel 23

24 Multipel linjär regression Exempel samspelstermer (interaktionstermer) 24  Vi bygger vidare på modellen där pris förklaras av area och antal rum  Antal rum i kvadrat och interaktionstermen läggs till i modellen: y = β 0 + β 1 ·x 1 + β 3 ·x 3 + β 5 ·x β 6 ·x 1 ·x 3 + ε

25 Multipel linjär regression Exempel samspelstermer (interaktionstermer) 25 Regression Analysis: Price versus Area; Rooms; Rooms**2 The regression equation is Price = ,3 Area Rooms Rooms**2 Predictor CoefSE CoefTP Constant ,46 0,647 Area 49,326 7,3796,680,000 Rooms ,360,020 Rooms** ,1613,6-2,490,014 S = 29528,4 R-Sq = 50,7% R-Sq(adj) = 49,6%  Alla variabler signifikanta när vi anpassar med den kvadratiska termen

26 Multipel linjär regression Exempel samspelstermer (interaktionstermer) 26 Regression Analysis: Price versus Area; Rooms; Rooms**2; Area*Rooms The regression equation is Price = Area Rooms Rooms**2 - 14,0 Area*Rooms Predictor CoefSE CoefTP Constant ,030,980 Area 162,7839,234,150,000 Rooms ,650,518 Rooms** ,560,122 Area*Rooms -14,0024,759-2,940,004 S = 28783,4 R-Sq = 53,4% R-Sq(adj) = 52,2%  När vi anpassar en modell med både kvadrattermen och interaktionstermen blir bara interaktionstermen signifikant. Den har ”tagit över” kvadrattermens roll.

27 Multipel linjär regression Exempel samspelstermer (interaktionstermer) 27 Regression Analysis: Price versus Area; Rooms; Area*Rooms The regression equation is Price = Area Rooms - 7,32 Area*Rooms Predictor CoefSE CoefTP Constant ,980,330 Area108,5518,066,010,000 Rooms ,700,008 Area*Rooms -7,321 2,058-3,560,001 S = 28922,9 R-Sq = 52,7% R-Sq(adj) = 51,7%  Vid anpassning med interaktionstermen blir alla signifikanta och vi får en högre förklaringsgrad.

28 Multipel linjär regression Se upp med! 28  Det kan vara lockande att ha så många variabler som möjligt i modellen för att förklara variansen i datamaterialet bra  Dock kan detta leda till överanpassning, det vill säga att modellen blir ”för bra” anpassad till datamaterialet och att prediktionerna då blir felaktiga  Hitta en balans mellan antalet variabler och förklaringsgrad


Ladda ner ppt "Föreläsning 3 732G05 Regressions- och tidsserieanalys."

Liknande presentationer


Google-annonser