1 Multipel Regression Kapitel 15. 2 Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Regressions- och tidsserieanalys
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL10 732G81 Linköpings universitet.
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Skattningens medelfel
Chitvå-test Regression forts.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Multipel regressionsanalys
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Sambandsmodeller, 10 p = 15 hp
3. Multipel regression 2005 © Rune Höglund Multipel regression.
Normalfördelningen och centrala gränsvärdessatsen
Från att värdera ett enstaka fastighetsobjekt till att göra en fastighetsprisprognos avseende Mats Wilhelmsson KTH.
Kvadratsummeuppdelning/Variansanalys
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
732G22 Grunder i statistisk metodik
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Kvadratisk regression, forts.
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Tidsserieanalys Exempel:
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Vetenskapsprojekt, rubrik
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Naturkunskapsprojekt
Presentationens avskrift:

1 Multipel Regression Kapitel 15

2 Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( ,  där  =  0 +  1 x 1 +  2 x 2 +…+  p x p Vi har alltså p+1 parametrar Vi tolkar  i som: För varje förändring av x i med en enhet så ändras Y i genomsnitt  i enheter, givet att övriga x-variabler hålls konstanta.

3 Parametrar Beroende variabelOberoende variabler Slumpvar. Modellen Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y =  0 +  1 x 1 +  2 x 2 + …+  p x p + 

4 Multipel regression med k = 2, Grafisk demonstration - I E(Y) =  0 +  1 x X y X2X2 1 I den enkla linjära regressionsmodellen har vi en oberoende variabel, “x” Y =  0 +  1 x +  I den multipla linjära regressionmodellen har vi fler än en oberoende variabel Y =  0 +  1 x 1 +  2 x 2 +  Observera att linjen blir ett plan… E(Y) =  0 +  1 x 1 +  2 x 2

5 Y ~ N( ,  )  ~ N(0,  ). Väntevärdet för  är noll (pga. hur  konstrueras) och standardavvikelsen (  antas vara konstant. Slumptermerna är oberoende (mer exakt:  j ober. av  k för j ≠ k). Antaganden

6 –Om modellutvärderingen indikerar att modellen är acceptabel kan parameterskattningar tolkas och modellen användas för att göra prediktioner. –Undersök hur väl modellen anpassar till data. –Kontrollera att de antaganden som görs är uppfyllda. Försök åtgärda problem som upptäcks. Skattning av parametrar och utvärdering av modellen Procedur för multipel regressionsanalys: –Skatta modellens parametrar (med hjälp av någon datorprogramvara).

7 Betrakta uppgift 15.5 i Anderson –“Toulon Theatres” marknadsför sig via tidningar samt TV. –Man vill kunna utreda vilken typ av reklam som lönar sig mest. –Man observerar under ett antal slumpmässigt utvalda veckor hur mycket man spenderat på respektive typ av reklam (TVAdv, NewsAdv), samt intäkter under veckan (Revenue). Modell: Revenue =     TVAdv   NewsAdv  Exempel

8 Resultat av undersökningen RevenueTVAdvNewsAdv 965,01,5 902,0 954,01,5 922,5 953,03,3 943,52,3 942,54,2 943,02,5 Alla siffror avser tusentals Euro

9 Minitabutskrift Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0, R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

10 Minitabutskrift, forts.

11 Utvärdering av modellen Del 1: Antaganden Normal- fördeln. Konstant Stdavv. Oberoende (om obs. i tidsordning)

12 Utvärdering av modellen Del 2: Parametrarna Vi kommer framför allt att använda följande tre verktyg: –Standardavvikelsen för slumptermen –Förklaringsgrad (Determinationskoefficient) –F-test Standardavvikelsen för slumptermen används framför allt som en del för att “bygga” de övriga verktygen.

13 Standardavvikelsen för slumptermen Standardavvikelsen skattas, precis som vid enkel linjär regression, av roten ur MSE (Mean Square Error): (Kom ihåg: för ELR är p=1) I vårt exempel ser vi att s = 0.643

14 Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0, R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

15 Förklaringsgrad Definition: I vårt exempel får vi R 2 = % av variationen i “Revenue” förklaras av variationen i våra x-variabler. 8.1% kvarstår “oförklarad”. När man justerar för antalet frihetsgrader får man, Justerade R 2

16 Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0, R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

17 Förklaringsgrad, forts. Justerat R 2 används om man vill jämföra förklaringsgrad mellan modeller med olika många x-variabler Man kan visa att R 2 alltid ökar om man lägger till fler x-variabler, medan minskar om den tillagda variabeln är för svagt relaterad till Y

18 Förklaringsgrad, forts. När man justerar för antalet frihetsgrader får man justerat R 2 (Anderson: adj R 2 ) I vårt exempel :

19 Regression Analysis: Revenue versus TVAdv; NewsAdv The regression equation is Revenue = 83,2 + 2,29 TVAdv + 1,30 NewsAdv Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0, R-Sq = 91,9% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500

20 Vi börjar med frågan: Finns det åtminstone en oberoende variabel (x-variabel) som är linjärt relaterad till vår beroendevariabel (y-variabel)? För att besvara den frågan testar vi följande hypotes H 0 :  1 =  2 = … =  p =0 mot H 1 : Minst en  i är skild från noll. Hypotesprövning

21 Hypotesprövning Om H 0 är sann så gäller: …vilket är vår testvariabel. Om MSR är stor jämfört med MSE så förklarar vår modell en stor andel av den totala variationen. Vi skall alltså förkasta H 0 om F obs är stor. H 0 förkastas om F obs >F  (p,n-p-1)

22 Hypotesprövning - arbetsgång Ett hypotestest av det linjära sambandet mellan Y och någon av de oberoende variablerna x 1, x 2,..., x k : Modell :Y=  0 +  1x x 1 +  2 x  p x p +  Hypoteser : H 0 :  1 =  2 =...=  p = 0 H 1 : Inte alla  i (i=1,2,...,p) är 0, dvs minst en  i är inte 0. Teststatistika : F = MSR/MSE ~ F(p,n-p-1) Samplingfördelning: F är F-fördelad med med p och (n-p-1) frihetsgrader, där n är antalet observationer och p är antalet x-variabler, givet att nollhypotesen är sann.

23 Hypotesprövning - arbetsgång Signifikansnivå: Väljs som vanligt, t ex  = 0.05 Kritiskt område: Om F obs är större än F kritiskt = Fa(p,n-p-1) förkastas nollhypotesen, dvs den beroende variabeln är relaterad till en eller flera (minst en) av de oberoende variablerna. Observation: F obs avläses i ANOVA tabellen. Slutsats: F obs jämförs med F kritiskt = F a (p, n-p-1) som fås från F-tabellen (alt p- värdesmetoden).

24 F-Fördelningen

25 Teststatistikan är alltså F-fördelad med p och n-p-1 frihetsgrader. En observation på teststatistikan hittar vi i datorutskriften. MSE=SSE/(n-p-1) MSR=SSR/p F obs SSE SSR Analysis of Variance Source DF SS MS F P Regression 2 23,435 11,718 28,38 0,002 Residual Error 5 2,065 0,413 Total 7 25,500 Tabell (sid framåt): F 0.05 (2,5) = 5.79 P- värde p n-p-1

26 Vi kan förkasta H 0. Slutsats: Vi har tillräckligt med bevis för att förkasta nollhypotesen. Minst en av våra  i är skild från noll, dvs. minst en av x-variablerna är linjärt relaterad till y. Men vilken / vilka … ??

27 Hypoteser: H 0 :  i  0 H 1 :  i  0 t-fördelad med n - p -1 frihetsgrader Teststatistika Hypotesprövning av  i

28 T-test - arbetsgång Ett hypotestest av det linjära sambandet mellan Y och en av de oberoende variablerna, givet att de andra oberoende variablerna finns med i modellen.: Hypoteser: ( 1 ) H 0 :  1 = 0 H 1 :  1  0 ( 2 ) H 0 :  2 = 0 H 1 :  2  0. ( p ) H 0 :  p = 0 H 1 :  p  0

29 T-test - arbetsgång Teststatistika (för test nr i): Samplingfördelning: T är t-fördelad med (n-p-1) frihetsgrader, där n är antalet observationer och p är antalet x-variabler, givet att nollhypotesten är sann. Fortsättningen som för enkel linjär regression … (signifikansnivå, kritiskt område, observation och slutsats)

30 Hypotesprövning av  i Predictor Coef SE Coef T P Constant 83,230 1,574 52,88 0,000 TVAdv 2,2902 0,3041 7,53 0,001 NewsAdv 1,3010 0,3207 4,06 0,010 S = 0, R-Sq = 91,9% R-Sq(adj) = 88,7% Observerade värden på T i datorutskriften

31 b 0 = Detta är interceptet. I detta fall är det förväntad intäkt om man inte gör någon reklam alls. Här har vi inte några observationer när alla x- variabler antar värdet noll, så vi gör en extrapolering vid tolkningen. b 1 = För varje ytterligare EUR 1000 man spenderar på TV-reklam, ökar intäkten med i genomsnitt EUR 2290, givet att övriga x-variabler konstanta. Tolkning av parameterskattningarna

32 b 2 = För varje ytterligare EUR 1000 man spenderar på TV-reklam, ökar intäkten med i genomsnitt EUR 1301, givet att övriga x-variabler konstanta.

33 Modellen kan användas för att göra prediktioner och uppskattningar genom att beräkna konfidensintervall / prediktionsintervall (mer senare…) Vi kan också använda modellen för att skaffa oss kunskap om relationerna mellan våra x-variabler och y-variabeln genom att tolka våra skattningar av  i Användning av den skattade modellen