1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant Kv-meter S = R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P Regression Residual Error Total
2 Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Column NameCountDescription ModellÖversättning C1Price150Price ypris C2Area150Area in square feetx1bostadsyta C3Acres150Acresx2tomtyta C4Rooms150Number of roomsx3antal rum C5Baths150Number of bathsx4antal badrum Källa: ”MTBWIN”/Student12/HOMES.MTW
3 Pris mot bostadsyta
4 Pris mot tomtyta
5 Pris mot antal rum
6 Pris mot antal badrum
7 Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de som verkar viktigast: bostadsyta och antal rum.
8 Regression Analysis: Price versus Area, Rooms The regression equation is Price = Area Rooms Predictor Coef SE Coef T P Constant Area Rooms Signifikanstest för t.ex. 1: är den skattade standardavvikelsen av b 1 Vi jämför t med t-fördelningen med n-k-1= frihetsgrader.
9 S = R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression E Residual Error E Total E+11 F-testet är signifikant
10 Punktskattning och punktprognos Nu vill vi göra en prognos för priset på en fastighet med –bostadsytan: 3000 ft2 och –antal rum: 6, och ett 95% prediktionsintervall i MINITAB
11 Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms Prediktionsintervall
12 Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms Konfidensintervall för det genomsnittliga priset på fastigheter med 3000 ft2 och 6 rum.
13 ‘Distance value’ kan, som sagt, inte enkelt beräknas från datamaterialet om vi har fler än en förklarande variabel. Men den kan beräknas ur New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) XX SE Fit är standardavvikelsen för punktskattningen
14 Om vi t.ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där vi har observationer är inte tillförlitliga
15 Pris mot bostadsyta Få observation med bostadsyta 3000 ft2 eller större, men ändå väl inom området där vi har observation
16 Pris mot antal rum
17 Vad är då problemet? Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 ft2. Det är alltså kombinationen 3000 ft2 och 6 rum som är extrem och vi måste fundera över om det är rimligt att anta att modellen är giltig även för denna typ av fastighet pris area rooms
18