Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avChristian Bergman
1
The regression equation is Price = - 13702 + 76.1 Area + 7323 Acres + 15438 Rooms - 8.59 Area*Rooms - 8432 Baths + 11.8 Area*Baths Predictor Coef SE Coef T P Constant -13702 22936 -0.60 0.551 Area 76.12 15.24 5.00 0.000 Acres 7322.9 859.6 8.52 0.000 Rooms 15438 4829 3.20 0.002 Area*Roo -8.589 2.470 -3.48 0.001 Baths -8432 12664 -0.67 0.507 Area*Bat 11.761 6.305 1.87 0.064 S = 22897 R-Sq = 70.9% R-Sq(adj) = 69.7%
2
Analysis of Variance Source DF SS MS F P Regression 6 1.83020E+11 30503276149 58.18 0.000 Residual Error 143 74968921395 524258192 Total 149 2.57989E+11 Source DF Seq SS Area 1 1.25271E+11 Acres 1 44104488077 Rooms 1 166184643 Area*Roo 1 5897295563 Baths 1 5756044237 Area*Bat 1 1824349748
3
The regression equation is Price = - 12280 + 88.2 Area + 7429 Acres + 10230 Rooms - 5.51 Area*Rooms Predictor Coef SE Coef T P Constant -12280 23758 -0.52 0.606 Area 88.15 15.10 5.84 0.000 Acres 7428.8 890.9 8.34 0.000 Rooms 10230 3636 2.81 0.006 Area*Roo -5.510 1.712 -3.22 0.002 S = 23860 R-Sq = 68.0% R-Sq(adj) = 67.1% Analysis of Variance Source DF SS MS F P Regression 4 1.75439E+11 43859815727 77.04 0.000 Residual Error 145 82549315379 569305623 Total 149 2.57989E+11
4
Den reducerade modellen Analysis of Variance Source DF SS MS F P Regression 4 1.75439E+11 43859815727 77.04 0.000 Residual Error 145 82549315379 569305623 Total 149 2.57989E+11 Den kompletta modellen Analysis of Variance Source DF SS MS F P Regression 6 1.83020E+11 30503276149 58.18 0.000 Residual Error 143 74968921395 524258192 Total 149 2.57989E+11
5
Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)
6
Insamlade månadsvisa data: MONTHCOSTPAPERMACHINEOVERHEADLABOR 11102550218112325 2100850219999301 31227616249126376 41395701277143419 ……………… 271388704281142429
7
Grafisk illustration av ev. samband:
8
Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 MACHINE 2.4710 0.4656 5.31 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030 -1.26 0.223 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta
9
I exemplet beräknar vi Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR COST PAPER MACHINE OVERHEAD PAPER 0.996 0.000 MACHINE 0.997 0.989 0.000 0.000 OVERHEAD 0.989 0.978 0.994 0.000 0.000 0.000 LABOR 0.938 0.933 0.945 0.938 0.000 0.000 0.000 0.000 Cell Contents: Pearson correlation P-Value Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPER en mycket nära kandidat här.)
10
Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P VIF Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 55.5 MACHINE 2.4710 0.4656 5.31 0.000 228.9 OVERHEAD 0.0483 0.5250 0.09 0.927 104.1 LABOR -0.05058 0.04030 -1.26 0.223 9.3 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kollinearitet här!
11
Val mellan olika modeller – modellbygge: Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) med följande variabler: x 1 (TIME) = den tid (i månader) som säljaren har varit anställd. x 2 (POTENT) = totala industriförsäljningens volym i distriktet x 3 (ADV) = annonskostnader (i dollar) x 4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x 5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden före de senaste fyra åren. x 6 (ACCTS) = antal kontrakt som säljaren arbetat med x 7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren x 8 (RATING) = bedömningsmått på säljaren satt av försäljningsansvarig
12
SALESTIMEPOTENTADVSHARESHARE- ACCTSWORK-RATING CHGLOAD 3669.8843.1074065.14582.92.510.3474.8615.054.9 3473.95108.1358117.35539.85.510.15107.3219.975.1 2295.1013.8221118.52950.410.91-0.7296.7517.342.9 4675.56186.1868521.32243.18.270.17195.1213.403.4 6125.96161.7957805.17747.19.150.50180.4417.644.6 2134.948.9437806.9402.45.510.15104.8816.224.5 5031.66365.0450935.33140.68.540.55256.1018.804.6 3367.45220.3235602.12086.27.07-0.49126.8319.862.3 … … … … … … … … … 2799.9721.1422809.53552.09.14-0.7488.6224.963.9
13
Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE + 285 SHARECHG + 4.38 ACCTS Predictor Coef SE Coef T P Constant -1165.5 420.4 -2.77 0.013 TIME 2.269 1.699 1.34 0.198 POTENT 0.038278 0.007547 5.07 0.000 ADV 0.14067 0.03839 3.66 0.002 SHARE 221.60 50.58 4.38 0.000 SHARECHG 285.1 160.6 1.78 0.093 ACCTS 4.378 3.999 1.09 0.288 S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4%
14
Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant -1507.8 778.6 -1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3%
15
Regression Analysis: SALES versus ACCTS The regression equation is SALES = 709 + 21.7 ACCTS Predictor Coef SE Coef T P Constant 709.3 515.2 1.38 0.182 ACCTS 21.722 3.946 5.50 0.000 S = 881.1 R-Sq = 56.8% R-Sq(adj) = 55.0% ACCTS är signifikant och utgör därför den första förklaringsvariabeln i modellen. Om vi testar de återstående variablerna var och en i modellen med ACCTS, ser vi att den variabel som är mest signifikant är ADV. signifikant
16
Regression Analysis: SALES versus ACCTS, ADV The regression equation is SALES = 50 + 19.0 ACCTS + 0.227 ADV Predictor Coef SE Coef T P Constant 50.3 407.6 0.12 0.903 ACCTS 19.048 2.973 6.41 0.000 ADV 0.22653 0.05039 4.50 0.000 S = 650.4 R-Sq = 77.5% R-Sq(adj) = 75.5% Nu kan vi försöka utöka modellen med ytterligare en variabel. Vi testar alltså alla kvarstående variabler var och en tillsammans med ACCTS och ADV.
17
Enklare är det att använda sig av framåtvalen som finns i MINITAB. (Stat->Regression->Stepwise… ) Forward selection. Alpha-to-Enter: 0.05 Response is SALES on 8 predictors, with N = 25 Step 1 2 3 4 Constant 709.32 50.29 -327.24 -1441.94 ACCTS 21.7 19.0 15.6 9.2 T-Value 5.50 6.41 5.19 3.22 P-Value 0.000 0.000 0.000 0.004 ADV 0.227 0.216 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 POTENT 0.0219 0.0382 T-Value 2.53 4.79 P-Value 0.019 0.000 SHARE 190 T-Value 3.82 P-Value 0.001 S 881 650 583 454 R-Sq 56.85 77.51 82.77 90.04 R-Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 27.2 18.4 5.4
18
I modellen med alla förklarande variabler: Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant -1507.8 778.6 -1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3% TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot.
19
Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1486 + 1.97 TIME + 0.0373 POTENT + 0.152 ADV + 198 SHARE + 296 SHARECHG + 5.61 ACCTS + 19.9 WORKLOAD Predictor Coef SE Coef T P Constant -1485.9 677.7 -2.19 0.043 TIME 1.974 1.796 1.10 0.287 POTENT 0.037290 0.007851 4.75 0.000 ADV 0.15196 0.04325 3.51 0.003 SHARE 198.31 64.12 3.09 0.007 SHARECHG 295.9 164.4 1.80 0.090 ACCTS 5.610 4.545 1.23 0.234 WORKLOAD 19.90 32.64 0.61 0.550 S = 435.7 R-Sq = 92.2% R-Sq(adj) = 89.0% TIME, SHARECHG, ACCTS och WORKLOAD är icke- signifikanta. WORKLOAD har lägst absolut t-kvot. osv.
20
Step 1 2 3 4 5 Constant -1508 -1486 -1165 -1114 -1312 TIME 2.0 2.0 2.3 3.6 3.8 T-Value 1.04 1.10 1.34 3.06 3.01 P-Value 0.313 0.287 0.198 0.006 0.007 POTENT 0.0372 0.0373 0.0383 0.0421 0.0444 T-Value 4.54 4.75 5.07 6.25 6.20 P-Value 0.000 0.000 0.000 0.000 0.000 ADV 0.151 0.152 0.141 0.129 0.152 T-Value 3.21 3.51 3.66 3.48 4.01 P-Value 0.006 0.003 0.002 0.003 0.001 SHARE 199 198 222 257 259 T-Value 2.97 3.09 4.38 6.57 6.15 P-Value 0.009 0.007 0.000 0.000 0.000 SHARECHG 291 296 285 325 T-Value 1.56 1.80 1.78 2.06 P-Value 0.139 0.090 0.093 0.053 ACCTS 5.6 5.6 4.4 T-Value 1.16 1.23 1.09 P-Value 0.262 0.234 0.288 WORKLOAD 20 20 T-Value 0.59 0.61 P-Value 0.565 0.550 RATING 8 T-Value 0.06 P-Value 0.950 S 449 436 428 430 464 R-Sq 92.20 92.20 92.03 91.50 89.60 R-Sq(adj) 88.31 88.99 89.38 89.26 87.52 C-p 9.0 7.0 5.4 4.4 6.4 Vi börjar med modellen med alla förklarande variabler och tar bort RATING, WORKLOAD, ACCTS och SHARECHG en efter en. Den slutliga modellen inkluderar TIME, POTENT, ADV och SHARE.
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.