Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.

Slides:



Advertisements
Liknande presentationer
Det första du bör göra är att rita horisonten
Advertisements

Idéer för ett bredare entreprenörskap
det är den här processen det är fråga om… fortsätt bildspel.
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Talföljder formler och summor
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
X-mas algebra Är du redo? Klicka!!.
Icke-linjära modeller:
1 Plan för ny panelmatris och större panel och hösten 2005 Presentation för Referensgruppen 22 juni 2005.
SSQ12-B Instruktioner Namn Datum Ålder
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Hur bra är modellen som vi har anpassat?
Funktioner och programorganisation
Regressions- och tidsserieanalys
Att skriva en artikel.
Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Trots att COST verkade ha ett tydligt positivt samband.
STUDIEMILJÖ Nu har du kommit till modul 2. Den handlar om din studiemiljö. Hur mycket har du egentligen tänkt på din fysiska studiemiljö? Har du funderat.
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Föreläsning 7 Analys av algoritmer T(n) och ordo
FL10 732G81 Linköpings universitet.
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Lösta och olösta problem i tidsvärdesestimering
Grundläggande programmering
Olika mått på grad av fetma - Spelar det någon roll hur vi mäter?
Max start-guide Liten och väldigt snabbt ihopkastad.
Informationskompetens. Eleven ska kunna… orientera sig i en komplex verklighet med stort informationsflöde och snabb förändringstakt. Deras förmåga att.
Vibeke Horstmann, Inst för hälsa, vård, samhälle, Centre for Ageing and Supportive Environments Jämförelse av två behandlingar.
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Frågor om elevinflytande till elever i åk 3 – 9 i grundskolan
Chitvå-test Regression forts.
Grundläggande programmering
Problemlösning Veckodagsproblemet Gissa talet Siffersumman.
Efterfrågemodeller R. D. Jonsson, Transportmodellkurs Trafikverket
Diskreta, deterministiska system Projekt 1.2; Vildkatt
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Multipel regressionsanalys
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.
Binomialsannolikheter ritas i ett stolpdiagram
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Hur bra är modellen som vi har anpassat?
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
Kvadratsummeuppdelning/Variansanalys
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Säsongrensning: Serien rensas från säsongkomponenten genom beräkning av centrerade och viktade glidande medelvärden (centered moving averages, CMA): där.
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
Krav på vetenskaplig tolkning
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Sju sätt att visa data Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete.
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Relation mellan variabler – samvariation, korrelation, regression
Presentationens avskrift:

Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)

Insamlade månadsvisa data: MONTH COST PAPER MACHINE OVERHEAD LABOR 1 1102 550 218 112 325 2 1008 502 199 99 301 3 1227 616 249 126 376 4 1395 701 277 143 419 … 27 1388 704 281 142 429

Grafisk illustration av ev. samband:

Hög förklaringsgrad, men alla x-variabler är ej signifikanta Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 MACHINE 2.4710 0.4656 5.31 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030 -1.26 0.223 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta

Varför kan vi inte hitta samma samband i regressionsmodellen som vi såg genom visuell inspektion? Kan det vara så att förklaringsvariablerna ”överlappar” varandra när det gäller att förklara kostnaden? Vi kan undersöka detta genom att plotta de förklarande variablerna mot varandra.

Vi plottar förklaringsvariablerna mot varandra: GraphMatrix Plot…

Tydligt samband mellan alla par av förklaringsvariabler.

och vi ser att samtliga korrelationer ligger mycket nära 1. Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler: Correlations: PAPER, MACHINE, OVERHEAD PAPER MACHINE MACHINE 0.989 0.000 OVERHEAD 0.978 0.994 0.000 0.000 Cell Contents: Pearson correlation P-Value och vi ser att samtliga korrelationer ligger mycket nära 1.

Om korrelationen är hög (över 0 Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler kan modellen bli svår att analysera. Vi kan t.ex. få: konstiga värden på parameterskattningar (t. ex. negativa lutningsparametrar där sambandet skall vara positivt) förklaringsvariabler är inte signifikanta, fastän man kan se ett tydligt linjärt samband mellan variabeln och responsen Eftersom flera förklarande variabler representerar samma påverkan är det svårt att separera vad i varje förklaringsvariabel som främst förklarar variationen i y.

Problemet kallas för multikollinearitet. Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra förklaringsvariablerna. Hur upptäcker man och hur åtgärdar man detta? Metod 1: Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs även med y. Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst korrelation med y.

(Dock är PAPER en mycket nära kandidat här.) I exemplet beräknar vi Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR COST PAPER MACHINE OVERHEAD PAPER 0.996 0.000 MACHINE 0.997 0.989 0.000 0.000 OVERHEAD 0.989 0.978 0.994 0.000 0.000 0.000 LABOR 0.938 0.933 0.945 0.938 0.000 0.000 0.000 0.000 Cell Contents: Pearson correlation P-Value Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPER en mycket nära kandidat här.)

Metod 2: Om det föreligger starka samband mellan en förklaringsvariabel och en eller flera av de övriga förklaringsvariablerna kan man tänka sig en modell där den första förklaras av de andra. T ex om x1 har starka samband med variablerna x2, x3, x4 blir en modell: x1 = 0  1  x2 2  x3 3  x4  Om denna modell anpassas erhålls en förklaringsgrad R12 , som anger hur stor del av den totala variationen i x1 som förklaras av de övriga x-variablerna. Är R12 stor, borde man kunna utesluta x1 ur modellen för y.

Den s k Variance Inflation Factor, VIF, för variabeln x1 definieras som Och vi ser att för ett stort värde hos R12 blir också VIF1 stor. VIF kan som lägst bli 1 vilket inträffar då R12=0. Om R12=1 skulle VIF bli oändligt stor. Om vi t.ex. anpassar en regressionsmodell x1 = 0  1  x2 2  x3 3  x4 , så får vi... förklaringsvariabler

Regression Analysis: PAPER versus MACHINE, OVERHEAD, LABOR The regression equation is PAPER = 112 + 2.92 MACHINE - 1.66 OVERHEAD - 0.0186 LABOR Predictor Coef SE Coef T P Constant 112.03 29.60 3.79 0.001 MACHINE 2.9162 0.5333 5.47 0.000 OVERHEAD -1.6589 0.8440 -1.97 0.062 LABOR -0.01863 0.06990 -0.27 0.792 S = 19.24 R-Sq = 98.2% R-Sq(adj) = 98.0% Analysis of Variance Source DF SS MS F P Regression 3 463679 154560 417.47 0.000 Residual Error 23 8515 370 Total 26 472194

VIF finns förstås definierad för varje ingående x-variabel som där Rj2 = förklaringsgraden i en anpassad modell där xj förklaras av övriga x-variabler. Om det största av dessa VIF-värden är större än 10 eller om medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kollinearitet. VIF-värden kan fås automatiskt i Minitab-utskriften:

Vi ser att det råder stora problem med (multi)kollinearitet här! Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P VIF Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 55.5 MACHINE 2.4710 0.4656 5.31 0.000 228.9 OVERHEAD 0.0483 0.5250 0.09 0.927 104.1 LABOR -0.05058 0.04030 -1.26 0.223 9.3 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kollinearitet här!

Är (multi)kollinearitet alltid ett bekymmer? När den anpassade modellen används för att förklara variation och tolka samband är det viktigt att multikollinearitet undviks. Tolkningarna blir annars lätt missvisande. Är målet med analysen att göra prognoser i nya punkter spelar det mindre roll om de inkluderade förklarande variablerna är korrelerade.

Val mellan olika modeller – modellbygge: Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) med följande variabler: x1 (TIME) = den tid (i månader) som säljaren har varit anställd. x2 (POTENT) = totala industriförsäljningens volym i distriktet x3 (ADV) = annonskostnader (i dollar) x4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden före de senaste fyra åren. x6 (ACCTS) = antal kontrakt som säljaren arbetat med x7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren x8 (RATING) = bedömningsmått på säljaren satt av försäljningsansvarig

SALES TIME POTENT ADV SHARE SHARE- ACCTS WORK- RATING CHG LOAD 3669.88 43.10 74065.1 4582.9 2.51 0.34 74.86 15.05 4.9 3473.95 108.13 58117.3 5539.8 5.51 0.15 107.32 19.97 5.1 2295.10 13.82 21118.5 2950.4 10.91 -0.72 96.75 17.34 2.9 4675.56 186.18 68521.3 2243.1 8.27 0.17 195.12 13.40 3.4 6125.96 161.79 57805.1 7747.1 9.15 0.50 180.44 17.64 4.6 2134.94 8.94 37806.9 402.4 5.51 0.15 104.88 16.22 4.5 5031.66 365.04 50935.3 3140.6 8.54 0.55 256.10 18.80 4.6 3367.45 220.32 35602.1 2086.2 7.07 -0.49 126.83 19.86 2.3 … … … … … … … … … 2799.97 21.14 22809.5 3552.0 9.14 -0.74 88.62 24.96 3.9

Hur väljer man den ”bästa” modellen? Studera varje relevant modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra? 2) Jämför justerade förklaringsgrader Variansskattning: Den modell som har lägst värde på MSE är bäst. Dock gäller: MSE minskar om och endast om den justerade förklaringsgraden ökar. Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av .

Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE + 285 SHARECHG + 4.38 ACCTS Predictor Coef SE Coef T P Constant -1165.5 420.4 -2.77 0.013 TIME 2.269 1.699 1.34 0.198 POTENT 0.038278 0.007547 5.07 0.000 ADV 0.14067 0.03839 3.66 0.002 SHARE 221.60 50.58 4.38 0.000 SHARECHG 285.1 160.6 1.78 0.093 ACCTS 4.378 3.999 1.09 0.288 S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4%

Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant -1507.8 778.6 -1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3%

4) Måttet Cp Cp (eller bara C) är en storhet som relaterar slumpvariationen i en anpassad modell till slumpvariationen, som blir kvar om man anpassar en modell med alla tillgängliga x-variabler (maximal modell). där sp2 är variansskattningen (dvs MSE) i den maximala modellen. Cp skall helst bli så liten som möjligt, och samtidigt  k+1

För att beräkna Cp krävs tydligen att såväl den aktuella som den maximala modellen anpassas. Minitab: Vi använder funktionen ’best subset regression’ för att ta fram de två bästa modellerna i varje modellstorlek (de två som har de högsta R2-värdena). Modellstorlek: antal förklarande variabler i modellen (Jag förhör ej på Cp) I den maximala modellstorleken finns förstås bara en modell och i denna kan visas att Cp alltid är p+1 Förutom R2-värdena får vi med ’best subsets’ metoden även justerade förklaringsgrader, s och dessutom just Cp

Cp k+1 Best Subsets Regression: SALES versus TIME, POTENT, ... Response is SALES S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G 1 56.8 55.0 67.6 881.09 X 1 38.8 36.1 104.6 1049.3 X 2 77.5 75.5 27.2 650.39 X X 2 74.6 72.3 33.1 691.11 X X 3 84.9 82.7 14.0 545.52 X X X 3 82.8 80.3 18.4 582.64 X X X 4 90.0 88.1 5.4 453.84 X X X X 4 89.6 87.5 6.4 463.95 X X X X 5 91.5 89.3 4.4 430.23 X X X X X 5 91.2 88.9 5.0 436.75 X X X X X 6 92.0 89.4 5.4 428.00 X X X X X X 6 91.6 88.9 6.1 438.20 X X X X X X 7 92.2 89.0 7.0 435.67 X X X X X X X 7 92.0 88.8 7.3 440.30 X X X X X X X 8 92.2 88.3 9.0 449.03 X X X X X X X X Cp k+1

I utskriften ser vi att i de 7 sista modellerna är Cp k+1 I utskriften ser vi att i de 7 sista modellerna är Cp k+1. Av de väljer vi modellen som har lägst Cp-värde. S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G k+1 4 90.0 88.1 5.4 453.84 X X X X 5 4 89.6 87.5 6.4 463.95 X X X X 5 5 91.5 89.3 4.4 430.23 X X X X X 6 5 91.2 88.9 5.0 436.75 X X X X X 6 6 92.0 89.4 5.4 428.00 X X X X X X 7 6 91.6 88.9 6.1 438.20 X X X X X X 7 7 92.2 89.0 7.0 435.67 X X X X X X X 8 7 92.0 88.8 7.3 440.30 X X X X X X X 8 8 92.2 88.3 9.0 449.03 X X X X X X X X 9 Modellen med TIME, POTENT, ADV, SHARE och SHARECHG skall väljas eftersom denna har lägst värde på Cp med villkoret bibehållet. Observera dock: Denna modell har inte det högsta värdet på vare sig förklaringsgrad eller justerad förklaringsgrad (alt. det lägsta värdet på s).

Automatiserat modellval: Framåtval: Forward Selection Bakåtval: Backward Selection Stegvis Regression: Stepwise regression Gemensamt för de här metoderna är att man testar en variabel i taget. Med hjälp av några kriterier som man bestämmer i förväg kan man sen avgöra om denna variabel ska läggas till i modellen (tas bort från modellen) eller inte.

Framåtvalsprincipen (Forward selection): Välj först den x-variabel som har högst absolut korrelation med y. (Den variabel som ger högst R2 och lägst SSE). Testa med t- eller F-test om denna variabel blir signifikant Om den blir det, behåll den i modellen. Om inte, så finns det ingen bra modell. Anpassa alla modeller med ytterligare en x-variabel. Använd sen den variabel som har lägst p-värde. Testa med t-test eller partiellt F-test om den andra x-variabeln blir signifikant. Om den blir det, behåll även denna variabel i modellen. Om inte, stanna vid den tidigare modellen med en förklarande variabel. Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan läggas till.

I ”vårt” datamaterial: Correlations: SALES, TIME, POTENT, ADV, SHARE, SHARECHG, ACCTS, WORKLOAD, RATING SALES TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD TIME 0.623 0.001 POTENT 0.598 0.454 0.002 0.023 ADV 0.596 0.249 0.174 0.002 0.230 0.405 SHARE 0.484 0.106 -0.211 0.264 0.014 0.613 0.312 0.201 SHARECHG 0.489 0.251 0.268 0.377 0.085 0.013 0.225 0.195 0.064 0.685 ACCTS 0.754 0.758 0.479 0.200 0.403 0.327 0.000 0.000 0.016 0.338 0.046 0.110 WORKLOAD -0.117 -0.179 -0.259 -0.272 0.349 -0.288 -0.199 0.577 0.391 0.212 0.188 0.087 0.163 0.341 RATING 0.402 0.101 0.359 0.411 -0.024 0.549 0.229 -0.277 0.046 0.631 0.078 0.041 0.911 0.004 0.272 0.180

Regression Analysis: SALES versus ACCTS The regression equation is SALES = 709 + 21.7 ACCTS Predictor Coef SE Coef T P Constant 709.3 515.2 1.38 0.182 ACCTS 21.722 3.946 5.50 0.000 S = 881.1 R-Sq = 56.8% R-Sq(adj) = 55.0% ACCTS är signifikant och utgör därför den första förklaringsvariabeln i modellen. Om vi testar de återstående variablerna var och en i modellen med ACCTS, ser vi att den variabel som är mest signifikant är ADV. signifikant

Regression Analysis: SALES versus ACCTS, ADV The regression equation is SALES = 50 + 19.0 ACCTS + 0.227 ADV Predictor Coef SE Coef T P Constant 50.3 407.6 0.12 0.903 ACCTS 19.048 2.973 6.41 0.000 ADV 0.22653 0.05039 4.50 0.000 S = 650.4 R-Sq = 77.5% R-Sq(adj) = 75.5% Nu kan vi försöka utöka modellen med ytterligare en variabel. Vi testar alltså alla kvarstående variabler var och en tillsammans med ACCTS och ADV.

Enklare är det att använda sig av framåtvalen som finns i MINITAB Enklare är det att använda sig av framåtvalen som finns i MINITAB. (Stat->Regression->Stepwise… ) Forward selection. Alpha-to-Enter: 0.05 Response is SALES on 8 predictors, with N = 25 Step 1 2 3 4 Constant 709.32 50.29 -327.24 -1441.94 ACCTS 21.7 19.0 15.6 9.2 T-Value 5.50 6.41 5.19 3.22 P-Value 0.000 0.000 0.000 0.004 ADV 0.227 0.216 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 POTENT 0.0219 0.0382 T-Value 2.53 4.79 P-Value 0.019 0.000 SHARE 190 T-Value 3.82 P-Value 0.001 S 881 650 583 454 R-Sq 56.85 77.51 82.77 90.04 R-Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 27.2 18.4 5.4

Bakåtelimineringsprincipen (Backward elimination ): Anpassa modellen med samtliga tillgängliga förklande variabler. Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen. Om en eller flera variabler ej är signifikanta ta bort den variabel som har lägst absolut t-kvot (högst p-värde). Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna modell är signifikanta är det den slutliga modellen. Om en eller flera variabler ej är signifikanta, ta bort den med högst p-värde. Upprepa förfarandet till dess att samtliga ingående förklaringsvariabler är signifikanta.

I modellen med alla förklarande variabler: Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant -1507.8 778.6 -1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3% TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot.

Regression Analysis: SALES versus TIME, POTENT, ... The regression equation is SALES = - 1486 + 1.97 TIME + 0.0373 POTENT + 0.152 ADV + 198 SHARE + 296 SHARECHG + 5.61 ACCTS + 19.9 WORKLOAD Predictor Coef SE Coef T P Constant -1485.9 677.7 -2.19 0.043 TIME 1.974 1.796 1.10 0.287 POTENT 0.037290 0.007851 4.75 0.000 ADV 0.15196 0.04325 3.51 0.003 SHARE 198.31 64.12 3.09 0.007 SHARECHG 295.9 164.4 1.80 0.090 ACCTS 5.610 4.545 1.23 0.234 WORKLOAD 19.90 32.64 0.61 0.550 S = 435.7 R-Sq = 92.2% R-Sq(adj) = 89.0% TIME, SHARECHG, ACCTS och WORKLOAD är icke-signifikanta. WORKLOAD har lägst absolut t-kvot. osv.

Den slutliga modellen inkluderar TIME, POTENT, ADV och SHARE. Step 1 2 3 4 5 Constant -1508 -1486 -1165 -1114 -1312 TIME 2.0 2.0 2.3 3.6 3.8 T-Value 1.04 1.10 1.34 3.06 3.01 P-Value 0.313 0.287 0.198 0.006 0.007 POTENT 0.0372 0.0373 0.0383 0.0421 0.0444 T-Value 4.54 4.75 5.07 6.25 6.20 P-Value 0.000 0.000 0.000 0.000 0.000 ADV 0.151 0.152 0.141 0.129 0.152 T-Value 3.21 3.51 3.66 3.48 4.01 P-Value 0.006 0.003 0.002 0.003 0.001 SHARE 199 198 222 257 259 T-Value 2.97 3.09 4.38 6.57 6.15 P-Value 0.009 0.007 0.000 0.000 0.000 SHARECHG 291 296 285 325 T-Value 1.56 1.80 1.78 2.06 P-Value 0.139 0.090 0.093 0.053 ACCTS 5.6 5.6 4.4 T-Value 1.16 1.23 1.09 P-Value 0.262 0.234 0.288 WORKLOAD 20 20 T-Value 0.59 0.61 P-Value 0.565 0.550 RATING 8 T-Value 0.06 P-Value 0.950 S 449 436 428 430 464 R-Sq 92.20 92.20 92.03 91.50 89.60 R-Sq(adj) 88.31 88.99 89.38 89.26 87.52 C-p 9.0 7.0 5.4 4.4 6.4 Vi börjar med modellen med alla förklarande variabler och tar bort RATING, WORKLOAD, ACCTS och SHARECHG en efter en. Den slutliga modellen inkluderar TIME, POTENT, ADV och SHARE.

Stegvis regression: Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas ”stegvis regression”: Välj först den variabel som har högst korrelation med y. Behåll variabeln om den är signifikant. Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant. Fortsätt att lägga till och ta bort variabler till dess att inga nya signifikanta kan hittas och inga gamla kan tas bort.

Step 1 2 3 4 Constant 709.32 50.29 -327.24 -1441.94 ACCTS 21.7 19.0 15.6 9.2 T-Value 5.50 6.41 5.19 3.22 P-Value 0.000 0.000 0.000 0.004 ADV 0.227 0.216 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 POTENT 0.0219 0.0382 T-Value 2.53 4.79 P-Value 0.019 0.000 SHARE 190 T-Value 3.82 P-Value 0.001 S 881 650 583 454 R-Sq 56.85 77.51 82.77 90.04 R-Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 27.2 18.4 5.4 Slutlig modell är alltså den med ACCTS, ADV, POTENT och SHARE, dvs samma som framåtvals-principen gav.

Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås. Det är inte heller så att någon med nödvändighet ger den bästa modellen. Algoritmerna skall kombineras med förnuft och residualanalys. Speciellt viktigt är det att inte utan att fundera stoppa in alla variabler man har i modellen, utan att börja med en vettig uppsättning relevanta variabler.