Presentation laddar. Vänta.

Presentation laddar. Vänta.

1 Multipel Regression Kapitel 15. 2 Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

Liknande presentationer


En presentation över ämnet: "1 Multipel Regression Kapitel 15. 2 Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , "— Presentationens avskrift:

1 1 Multipel Regression Kapitel 15

2 2 Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( ,  där  =  0 +  1 x 1 +  2 x 2 +…+  p x p Vi har alltså p+1 parametrar Vi tolkar  i som: För varje förändring av x i med en enhet så ändras Y i genomsnitt  i enheter, givet att övriga x-variabler hålls konstanta.

3 3 Parametrar Beroende variabelOberoende variabler Slumpvar. Modellen Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y =  0 +  1 x 1 +  2 x 2 + …+  p x p + 

4 4 Multipel regression med k = 2, Grafisk demonstration - I E(Y) =  0 +  1 x X y X2X2 1 I den enkla linjära regressionsmodellen har vi en oberoende variabel, “x” Y =  0 +  1 x +  I den multipla linjära regressionmodellen har vi fler än en oberoende variabel Y =  0 +  1 x 1 +  2 x 2 +  Observera att linjen blir ett plan… E(Y) =  0 +  1 x 1 +  2 x 2

5 5 Y ~ N( ,  )  ~ N(0,  ). Väntevärdet för  är noll (pga. hur  konstrueras) och standardavvikelsen (  antas vara konstant. Slumptermerna är oberoende (mer exakt:  j ober. av  k för j ≠ k). Antaganden

6 6 –Om modellutvärderingen indikerar att modellen är acceptabel kan parameterskattningar tolkas och modellen användas för att göra prediktioner. –Undersök hur väl modellen anpassar till data. –Kontrollera att de antaganden som görs är uppfyllda. Försök åtgärda problem som upptäcks. Skattning av parametrar och utvärdering av modellen Procedur för multipel regressionsanalys: –Skatta modellens parametrar (med hjälp av någon datorprogramvara).

7 7 Betrakta uppgift 15.5 i Anderson –“Toulon Theatres” marknadsför sig via tidningar samt TV. –Man vill kunna utreda vilken typ av reklam som lönar sig mest. –Man observerar under ett antal slumpmässigt utvalda veckor hur mycket man spenderat på respektive typ av reklam (TVAdv, NewsAdv), samt intäkter under veckan (Revenue). Modell: Revenue =     TVAdv   NewsAdv  Exempel

8 8 Resultat av undersökningen RevenueTVAdvNewsAdv 965,01,5 902,0 954,01,5 922,5 953,03,3 943,52,3 942,54,2 943,02,5 Alla siffror avser tusentals Euro

9 9 Minitabutskrift Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0,642587 R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

10 10 Minitabutskrift, forts.

11 11 Utvärdering av modellen Del 1: Antaganden Normal- fördeln. Konstant Stdavv. Oberoende (om obs. i tidsordning)

12 12 Utvärdering av modellen Del 2: Parametrarna Vi kommer framför allt att använda följande tre verktyg: –Standardavvikelsen för slumptermen –Förklaringsgrad (Determinationskoefficient) –F-test Standardavvikelsen för slumptermen används framför allt som en del för att “bygga” de övriga verktygen.

13 13 Standardavvikelsen för slumptermen Standardavvikelsen skattas, precis som vid enkel linjär regression, av roten ur MSE (Mean Square Error): (Kom ihåg: för ELR är p=1) I vårt exempel ser vi att s = 0.643

14 14 Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0,642587 R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

15 15 Förklaringsgrad Definition: I vårt exempel får vi R 2 = 0.919 91.9% av variationen i “Revenue” förklaras av variationen i våra x-variabler. 8.1% kvarstår “oförklarad”. När man justerar för antalet frihetsgrader får man, Justerade R 2

16 16 Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0,642587 R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

17 17 Förklaringsgrad, forts. Justerat R 2 används om man vill jämföra förklaringsgrad mellan modeller med olika många x-variabler Man kan visa att R 2 alltid ökar om man lägger till fler x-variabler, medan minskar om den tillagda variabeln är för svagt relaterad till Y

18 18 Förklaringsgrad, forts. När man justerar för antalet frihetsgrader får man justerat R 2 (Anderson: adj R 2 ) I vårt exempel :

19 19 Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0,642587 R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

20 20 Vi börjar med frågan: Finns det åtminstone en oberoende variabel (x-variabel) som är linjärt relaterad till vår beroendevariabel (y-variabel)? För att besvara den frågan testar vi följande hypotes H 0 :  1 =  2 = … =  p =0 mot H 1 : Minst en  i är skild från noll. Hypotesprövning

21 21 Hypotesprövning Om H 0 är sann så gäller: …vilket är vår testvariabel. Om MSR är stor jämfört med MSE så förklarar vår modell en stor andel av den totala variationen. Vi skall alltså förkasta H 0 om F obs är stor. H 0 förkastas om F obs >F  (p,n-p-1)

22 22 Hypotesprövning - arbetsgång Ett hypotestest av det linjära sambandet mellan Y och någon av de oberoende variablerna x 1, x 2,..., x k : Modell :Y=  0 +  1x x 1 +  2 x 2 +... +  p x p +  Hypoteser : H 0 :  1 =  2 =...=  p = 0 H 1 : Inte alla  i (i=1,2,...,p) är 0, dvs minst en  i är inte 0. Teststatistika : F = MSR/MSE ~ F(p,n-p-1) Samplingfördelning: F är F-fördelad med med p och (n-p-1) frihetsgrader, där n är antalet observationer och p är antalet x-variabler, givet att nollhypotesen är sann.

23 23 Hypotesprövning - arbetsgång Signifikansnivå: Väljs som vanligt, t ex  = 0.05 Kritiskt område: Om F obs är större än F kritiskt = Fa(p,n-p-1) förkastas nollhypotesen, dvs den beroende variabeln är relaterad till en eller flera (minst en) av de oberoende variablerna. Observation: F obs avläses i ANOVA tabellen. Slutsats: F obs jämförs med F kritiskt = F a (p, n-p-1) som fås från F-tabellen (alt p- värdesmetoden).

24 24 F-Fördelningen

25 25 Teststatistikan är alltså F-fördelad med p och n-p-1 frihetsgrader. En observation på teststatistikan hittar vi i datorutskriften. MSE=SSE/(n-p-1) MSR=SSR/p F obs SSE SSR Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500 Tabell (sid 830 - framåt): F 0.05 (2,5) = 5.79 P- värde p n-p-1

26 26 Vi kan förkasta H 0. Slutsats: Vi har tillräckligt med bevis för att förkasta nollhypotesen. Minst en av våra  i är skild från noll, dvs. minst en av x-variablerna är linjärt relaterad till y. Men vilken / vilka … ??

27 27 Hypoteser: H 0 :  i  0 H 1 :  i  0 t-fördelad med n - p -1 frihetsgrader Teststatistika Hypotesprövning av  i

28 28 T-test - arbetsgång Ett hypotestest av det linjära sambandet mellan Y och en av de oberoende variablerna, givet att de andra oberoende variablerna finns med i modellen.: Hypoteser: ( 1 ) H 0 :  1 = 0 H 1 :  1  0 ( 2 ) H 0 :  2 = 0 H 1 :  2  0. ( p ) H 0 :  p = 0 H 1 :  p  0

29 29 T-test - arbetsgång Teststatistika (för test nr i): Samplingfördelning: T är t-fördelad med (n-p-1) frihetsgrader, där n är antalet observationer och p är antalet x-variabler, givet att nollhypotesten är sann. Fortsättningen som för enkel linjär regression … (signifikansnivå, kritiskt område, observation och slutsats)

30 30 Hypotesprövning av  i Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0,642587 R-Sq = 91,9% R-Sq(adj) = 88,7% Observerade värden på T i datorutskriften

31 31 b 0 = 83.23. Detta är interceptet. I detta fall är det förväntad intäkt om man inte gör någon reklam alls. Här har vi inte några observationer när alla x- variabler antar värdet noll, så vi gör en extrapolering vid tolkningen. b 1 = 2.290. För varje ytterligare EUR 1000 man spenderar på TV-reklam, ökar intäkten med i genomsnitt EUR 2290, givet att övriga x-variabler konstanta. Tolkning av parameterskattningarna

32 32 b 2 = 1.301. För varje ytterligare EUR 1000 man spenderar på TV-reklam, ökar intäkten med i genomsnitt EUR 1301, givet att övriga x-variabler konstanta.

33 33 Modellen kan användas för att göra prediktioner och uppskattningar genom att beräkna konfidensintervall / prediktionsintervall (mer senare…) Vi kan också använda modellen för att skaffa oss kunskap om relationerna mellan våra x-variabler och y-variabeln genom att tolka våra skattningar av  i Användning av den skattade modellen


Ladda ner ppt "1 Multipel Regression Kapitel 15. 2 Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , "

Liknande presentationer


Google-annonser