Presentation laddar. Vänta.

Presentation laddar. Vänta.

1 Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan.

Liknande presentationer


En presentation över ämnet: "1 Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan."— Presentationens avskrift:

1 1 Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)

2 2 Insamlade månadsvisa data: MONTHCOSTPAPERMACHINEOVERHEADLABOR ………………

3 3 Grafisk illustration av ev. samband:

4 4 Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = PAPER MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P Constant PAPER MACHINE OVERHEAD LABOR S = R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta

5 5 Varför kan vi inte hitta samma samband i regressionsmodellen som vi såg genom visuell inspektion? Kan det vara så att förklaringsvariablerna ”överlappar” varandra när det gäller att förklara kostnaden? Vi kan undersöka detta genom att plotta de förklarande variablerna mot varandra.

6 6 Vi plottar förklaringsvariablerna mot varandra : Graph  Matrix Plot…

7 7 Tydligt samband mellan alla par av förklaringsvariabler.

8 8 Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler: Correlations: PAPER, MACHINE, OVERHEAD PAPER MACHINE MACHINE OVERHEAD Cell Contents: Pearson correlation P-Value och vi ser att samtliga korrelationer ligger mycket nära 1.

9 9 Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler kan modellen bli svår att analysera. Vi kan t.ex. få: konstiga värden på parameterskattningar (t. ex. negativa lutningsparametrar där sambandet skall vara positivt) förklaringsvariabler är inte signifikanta, fastän man kan se ett tydligt linjärt samband mellan variabeln och responsen Eftersom flera förklarande variabler representerar samma påverkan är det svårt att separera vad i varje förklaringsvariabel som främst förklarar variationen i y.

10 10 Problemet kallas för multikollinearitet. Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra förklaringsvariablerna. Hur upptäcker man och hur åtgärdar man detta? Metod 1: Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs även med y. Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst korrelation med y.

11 11 I exemplet beräknar vi Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR COST PAPER MACHINE OVERHEAD PAPER MACHINE OVERHEAD LABOR Cell Contents: Pearson correlation P-Value Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPER en mycket nära kandidat här.)

12 12 Metod 2: Om det föreligger starka samband mellan en förklaringsvariabel och en eller flera av de övriga förklaringsvariablerna kan man tänka sig en modell där den första förklaras av de andra. T ex om x 1 har starka samband med variablerna x 2, x 3, x 4 blir en modell: x 1 =  0   1  x 2  2  x 3  3  x 4  Om denna modell anpassas erhålls en förklaringsgrad R 1 2, som anger hur stor del av den totala variationen i x 1 som förklaras av de övriga x-variablerna. Är R 1 2 stor, borde man kunna utesluta x 1 ur modellen för y.

13 13 Den s k Variance Inflation Factor, VIF, för variabeln x 1 definieras som Och vi ser att för ett stort värde hos R 1 2 blir också VIF 1 stor. VIF kan som lägst bli 1 vilket inträffar då R 1 2 =0. Om R 1 2 =1 skulle VIF bli oändligt stor. Om vi t.ex. anpassar en regressionsmodell x 1 =  0   1  x 2  2  x 3  3  x 4 , så får vi... förklaringsvariabler

14 14 Regression Analysis: PAPER versus MACHINE, OVERHEAD, LABOR The regression equation is PAPER = MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P Constant MACHINE OVERHEAD LABOR S = R-Sq = 98.2% R-Sq(adj) = 98.0% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

15 15 VIF finns förstås definierad för varje ingående x-variabel som där R j 2 = förklaringsgraden i en anpassad modell där x j förklaras av övriga x-variabler. Om det största av dessa VIF-värden är större än 10 eller om medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kollinearitet. VIF-värden kan fås automatiskt i Minitab-utskriften:

16 16 Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = PAPER MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P VIF Constant PAPER MACHINE OVERHEAD LABOR S = R-Sq = 99.9% R-Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kollinearitet här!

17 17 Är (multi)kollinearitet alltid ett bekymmer? När den anpassade modellen används för att förklara variation och tolka samband är det viktigt att multikollinearitet undviks. Tolkningarna blir annars lätt missvisande. Är målet med analysen att göra prognoser i nya punkter spelar det mindre roll om de inkluderade förklarande variablerna är korrelerade.

18 18 Val mellan olika modeller – modellbygge: Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) med följande variabler: x 1 (TIME) = den tid (i månader) som säljaren har varit anställd. x 2 (POTENT) = totala industriförsäljningens volym i distriktet x 3 (ADV) = annonskostnader (i dollar) x 4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x 5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden före de senaste fyra åren. x 6 (ACCTS) = antal kontrakt som säljaren arbetat med x 7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren x 8 (RATING) = bedömningsmått på säljaren satt av försäljningsansvarig

19 19 SALESTIMEPOTENTADVSHARESHARE- ACCTSWORK-RATING CHGLOAD … … … … … … … … …

20 20 Hur väljer man den ”bästa” modellen? 1)Studera varje relevant modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra? 2) Jämför justerade förklaringsgrader 3)Variansskattning: Den modell som har lägst värde på MSE är bäst. Dock gäller: MSE minskar om och endast om den justerade förklaringsgraden ökar. Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av.

21 21 Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS S = R-Sq = 92.0% R-Sq(adj) = 89.4%

22 22 Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING S = R-Sq = 92.2% R-Sq(adj) = 88.3%

23 23 4) Måttet C p C p (eller bara C) är en storhet som relaterar slumpvariationen i en anpassad modell till slumpvariationen, som blir kvar om man anpassar en modell med alla tillgängliga x-variabler (maximal modell). där s p 2 är variansskattningen (dvs MSE) i den maximala modellen. C p skall helst bli så liten som möjligt, och samtidigt  k+1

24 24 För att beräkna C p krävs tydligen att såväl den aktuella som den maximala modellen anpassas. Minitab: Vi använder funktionen ’best subset regression’ för att ta fram de två bästa modellerna i varje modellstorlek (de två som har de högsta R 2 -värdena). Modellstorlek: antal förklarande variabler i modellen (Jag förhör ej på Cp) I den maximala modellstorleken finns förstås bara en modell och i denna kan visas att C p alltid är p+1 Förutom R 2 -värdena får vi med ’best subsets’ metoden även justerade förklaringsgrader, s och dessutom just C p

25 25 Best Subsets Regression: SALES versus TIME, POTENT,... Response is SALES S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X C p  k+1

26 26 I utskriften ser vi att i de 7 sista modellerna är C p  k+1. Av de väljer vi modellen som har lägst C p -värde. S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G k X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 9 Modellen med TIME, POTENT, ADV, SHARE och SHARECHG skall väljas eftersom denna har lägst värde på C p med villkoret bibehållet. Observera dock: Denna modell har inte det högsta värdet på vare sig förklaringsgrad eller justerad förklaringsgrad (alt. det lägsta värdet på s).

27 27 Automatiserat modellval: –Framåtval: Forward Selection –Bakåtval: Backward Selection –Stegvis Regression: Stepwise regression Gemensamt för de här metoderna är att man testar en variabel i taget. Med hjälp av några kriterier som man bestämmer i förväg kan man sen avgöra om denna variabel ska läggas till i modellen (tas bort från modellen) eller inte.

28 28 Framåtvalsprincipen (Forward selection): 1.Välj först den x-variabel som har högst absolut korrelation med y. (Den variabel som ger högst R 2 och lägst SSE). 2.Testa med t- eller F-test om denna variabel blir signifikant 3.Om den blir det, behåll den i modellen. Om inte, så finns det ingen bra modell. 4.Anpassa alla modeller med ytterligare en x-variabel. Använd sen den variabel som har lägst p-värde. 5.Testa med t-test eller partiellt F-test om den andra x- variabeln blir signifikant. 6.Om den blir det, behåll även denna variabel i modellen. Om inte, stanna vid den tidigare modellen med en förklarande variabel. 7.Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan läggas till.

29 29 I ”vårt” datamaterial: Correlations: SALES, TIME, POTENT, ADV, SHARE, SHARECHG, ACCTS, WORKLOAD, RATING SALES TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING

30 30 Regression Analysis: SALES versus ACCTS The regression equation is SALES = ACCTS Predictor Coef SE Coef T P Constant ACCTS S = R-Sq = 56.8% R-Sq(adj) = 55.0% ACCTS är signifikant och utgör därför den första förklaringsvariabeln i modellen. Om vi testar de återstående variablerna var och en i modellen med ACCTS, ser vi att den variabel som är mest signifikant är ADV. signifikant

31 31 Regression Analysis: SALES versus ACCTS, ADV The regression equation is SALES = ACCTS ADV Predictor Coef SE Coef T P Constant ACCTS ADV S = R-Sq = 77.5% R-Sq(adj) = 75.5% Nu kan vi försöka utöka modellen med ytterligare en variabel. Vi testar alltså alla kvarstående variabler var och en tillsammans med ACCTS och ADV.

32 32 Enklare är det att använda sig av framåtvalen som finns i MINITAB. (Stat->Regression->Stepwise… ) Forward selection. Alpha-to-Enter: 0.05 Response is SALES on 8 predictors, with N = 25 Step Constant ACCTS T-Value P-Value ADV T-Value P-Value POTENT T-Value P-Value SHARE 190 T-Value 3.82 P-Value S R-Sq R-Sq(adj) C-p

33 33 Bakåtelimineringsprincipen (Backward elimination ): 1.Anpassa modellen med samtliga tillgängliga förklande variabler. 2.Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen. 3.Om en eller flera variabler ej är signifikanta ta bort den variabel som har lägst absolut t-kvot (högst p-värde). 4.Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna modell är signifikanta är det den slutliga modellen. 5.Om en eller flera variabler ej är signifikanta, ta bort den med högst p-värde. 6.Upprepa förfarandet till dess att samtliga ingående förklaringsvariabler är signifikanta.

34 34 I modellen med alla förklarande variabler: Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD RATING S = R-Sq = 92.2% R-Sq(adj) = 88.3% TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot.

35 35 Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD Predictor Coef SE Coef T P Constant TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD S = R-Sq = 92.2% R-Sq(adj) = 89.0% TIME, SHARECHG, ACCTS och WORKLOAD är icke- signifikanta. WORKLOAD har lägst absolut t-kvot. osv.

36 36 Step Constant TIME T-Value P-Value POTENT T-Value P-Value ADV T-Value P-Value SHARE T-Value P-Value SHARECHG T-Value P-Value ACCTS T-Value P-Value WORKLOAD T-Value P-Value RATING 8 T-Value 0.06 P-Value S R-Sq R-Sq(adj) C-p Vi börjar med modellen med alla förklarande variabler och tar bort RATING, WORKLOAD, ACCTS och SHARECHG en efter en. Den slutliga modellen inkluderar TIME, POTENT, ADV och SHARE.

37 37 Stegvis regression: Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas ”stegvis regression”: Välj först den variabel som har högst korrelation med y. Behåll variabeln om den är signifikant. Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant. Fortsätt att lägga till och ta bort variabler till dess att inga nya signifikanta kan hittas och inga gamla kan tas bort.

38 38 Step Constant ACCTS T-Value P-Value ADV T-Value P-Value POTENT T-Value P-Value SHARE 190 T-Value 3.82 P-Value S R-Sq R-Sq(adj) C-p Slutlig modell är alltså den med ACCTS, ADV, POTENT och SHARE, dvs samma som framåtvals- principen gav.

39 39 Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås. Det är inte heller så att någon med nödvändighet ger den bästa modellen. Algoritmerna skall kombineras med förnuft och residualanalys. Speciellt viktigt är det att inte utan att fundera stoppa in alla variabler man har i modellen, utan att börja med en vettig uppsättning relevanta variabler.


Ladda ner ppt "1 Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan."

Liknande presentationer


Google-annonser