The regression equation is Price = Area Acres Rooms Area*Rooms Baths Area*Baths Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo Baths Area*Bat S = R-Sq = 70.9% R-Sq(adj) = 69.7%
Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 Source DF Seq SS Area E+11 Acres Rooms Area*Roo Baths Area*Bat
The regression equation is Price = Area Acres Rooms Area*Rooms Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo S = R-Sq = 68.0% R-Sq(adj) = 67.1% Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11
Den reducerade modellen Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 Den kompletta modellen Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11
Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)
Insamlade månadsvisa data: MONTHCOSTPAPERMACHINEOVERHEADLABOR ………………
Grafisk illustration av ev. samband:
Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = PAPER MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P Constant PAPER MACHINE OVERHEAD LABOR S = R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta
I exemplet beräknar vi Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR COST PAPER MACHINE OVERHEAD PAPER MACHINE OVERHEAD LABOR Cell Contents: Pearson correlation P-Value Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPER en mycket nära kandidat här.)
Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = PAPER MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P VIF Constant PAPER MACHINE OVERHEAD LABOR S = R-Sq = 99.9% R-Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kollinearitet här!
Val mellan olika modeller – modellbygge: Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) med följande variabler: x 1 (TIME) = den tid (i månader) som säljaren har varit anställd. x 2 (POTENT) = totala industriförsäljningens volym i distriktet x 3 (ADV) = annonskostnader (i dollar) x 4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x 5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden före de senaste fyra åren. x 6 (ACCTS) = antal kontrakt som säljaren arbetat med x 7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren x 8 (RATING) = bedömningsmått på säljaren satt av försäljningsansvarig
SALESTIMEPOTENTADVSHARESHARE- ACCTSWORK-RATING CHGLOAD … … … … … … … … …
Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS S = R-Sq = 92.0% R-Sq(adj) = 89.4%
Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING S = R-Sq = 92.2% R-Sq(adj) = 88.3%
Regression Analysis: SALES versus ACCTS The regression equation is SALES = ACCTS Predictor Coef SE Coef T P Constant ACCTS S = R-Sq = 56.8% R-Sq(adj) = 55.0% ACCTS är signifikant och utgör därför den första förklaringsvariabeln i modellen. Om vi testar de återstående variablerna var och en i modellen med ACCTS, ser vi att den variabel som är mest signifikant är ADV. signifikant
Regression Analysis: SALES versus ACCTS, ADV The regression equation is SALES = ACCTS ADV Predictor Coef SE Coef T P Constant ACCTS ADV S = R-Sq = 77.5% R-Sq(adj) = 75.5% Nu kan vi försöka utöka modellen med ytterligare en variabel. Vi testar alltså alla kvarstående variabler var och en tillsammans med ACCTS och ADV.
Enklare är det att använda sig av framåtvalen som finns i MINITAB. (Stat->Regression->Stepwise… ) Forward selection. Alpha-to-Enter: 0.05 Response is SALES on 8 predictors, with N = 25 Step Constant ACCTS T-Value P-Value ADV T-Value P-Value POTENT T-Value P-Value SHARE 190 T-Value 3.82 P-Value S R-Sq R-Sq(adj) C-p
I modellen med alla förklarande variabler: Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING S = R-Sq = 92.2% R-Sq(adj) = 88.3% TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot.
Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD S = R-Sq = 92.2% R-Sq(adj) = 89.0% TIME, SHARECHG, ACCTS och WORKLOAD är icke- signifikanta. WORKLOAD har lägst absolut t-kvot. osv.
Step Constant TIME T-Value P-Value POTENT T-Value P-Value ADV T-Value P-Value SHARE T-Value P-Value SHARECHG T-Value P-Value ACCTS T-Value P-Value WORKLOAD T-Value P-Value RATING 8 T-Value 0.06 P-Value S R-Sq R-Sq(adj) C-p Vi börjar med modellen med alla förklarande variabler och tar bort RATING, WORKLOAD, ACCTS och SHARECHG en efter en. Den slutliga modellen inkluderar TIME, POTENT, ADV och SHARE.