Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande variabler samt en kvalitativ förklarande variabel. B.Man har en kvantitativ responsvariabel som är icke-linjärt relaterad till en eller flera kvantitativa förklarande variabler. 1
A. Kvalitativ förklarande variabel (s.659/611) Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklaringsvariabler samt en kvalitativ förklarande variabel. Man inför då s.k. indikatorvariabler (dummyvariabler) och gör sedan vanlig regression. Antalet indikatorvariabler ska vara 1 mindre än antalet utfall för den kvalitativa variabeln. Ex. Kvalitativ variabel Man/Kvinna (två utfall -> en indikatorvar.) Grundskola/Gymnasium/Högskola (tre utfall -> två indikatorvar.) Vår/Sommar/Höst/Vinter (fyra utfall -> tre indikatorvar.) 2
Indikatorvariabel 3
Skapa indikatorvariabler till en kvalitativ variabel med I st utfall 4
Lära känna sitt datamaterial Man gör på liknande sätt som med bara kvantitativa förklarande variabler, men om den kvalitativa variabeln har få utfall (≈2,3,4) så gör man grupperade spridningsdiagram. 5
Exempel: Reparationstid 6
…forts. Notera att: 7
...forts.
Ex: Lön, ålder, erfarenhet och kön på ett företag Lön Ålder Erfarenhet KönKMMKKMKK Förutom ålder, månadslön och antal månaders erfarenhet som de åtta personerna har så får vi även reda på kön. Fråga: Ansätt en linjär regressionsmodell där även kön är en förklarande variabel. (Senare vill vi testa om kön påverkar lönen.) 10
…forts exempel 11
…forts Notera att: 12
...forts Vi gör ett grupperat tredimensionellt spridningsdiagram. Det svårt att se om två plan kan anpassas bra till observationerna. 13
...forts Vi gör även grupperade spridningsdiagram mot ålder och erfarenhet var för sig. Observationerna ser ut att blanda sig ganska slumpvis. Dvs det ser inte ut som kön ger någon större påverkan på lön. Man ser alltså inga starka tecken på att den kvalitativa variabeln kön bör vara med i modellen. 14
…forts ex Fråga: Tolka de skattade parametrarna. Regression Analysis: Lön versus Ålder; Erfarenhet; Kön The regression equation is Lön = 9,59 + 0,315 Ålder + 0,0821 Erfarenhet + 0,88 Kön Predictor Coef SE Coef T P Constant 9,594 2,691 3,57 0,023 Ålder 0, , ,03 0,016 Erfarenhet 0, , ,32 0,012 Kön 0,878 1,539 0,57 0,599 S = 2,08524 R-Sq = 96,6% R-Sq(adj) = 94,0% 15
…forts ex 16
…forts ex 17
Sammanfattning då man har en kvalitativ förklarande variabel med två utfall samt en resp. två kvantitativa förklarande variabler: Regression med två kvantitativa variabler (x 1 och x 2 ) och en indikator- variabel (x 3 ): Regression med en kvantivativ variabel (x 1 ) och en indikator- variabel (x 2 ): X1X1 y Linje för x 2 =1 Linje för x 2 =0 b0b0 b 0 +b 2 x2x2 x1x1 y b3b3 18
Vad blir det om det är en kvalitativ förklarande variabel med tre utfall samt en kvantitativ förklarande variabel 1.Tre linjer 2.Tre plan 3.Två linjer 4.Två plan 19
Exempel: Reparationstid 20
…forts Notera att: 21
Tex kan det se ut så här 22 b0b0 X1X1 Y Linje då x 2 = 0 och x 3 = 1 Regression med en kvantitativ variabel (x 1 ) och två indikatorvariabler (x 2 och x 3 ): b 0 +b 2 b 0 +b 3 Linje då x 2 = 1 och x 3 = 0 Linje då x 2 = 0 och x 3 = 0
B. Icke-linjära samband 23
Exempel: Icke-linjärt samband Vid ett odlingsförsök observerade man avkastningen per ytenhet från ett antal försöksytor som tillförts olika mängder konstgödsel. Avkastning är responsvariabel och gödsel förklarande variabel. Vi ser Att sambandet inte är linjärt. Vi ska nu testa en icke-linjär modell. Avkastning (dt/ha)Gödsel (dt/ha)
Avkastning (dt/ha) y Gödsel (dt/ha) xx2x
The regression equation is Avkastning = - 4, ,9 Gödsel - 3,84 Gödsel^2 Predictor Coef SE Coef T P Constant -4,500 3,729 -1,21 0,314 Gödsel 33,875 2,440 13,89 0,001 Gödsel^2 -3,8393 0, ,25 0,002 S = 2,08452 R-Sq = 99,1% R-Sq(adj) = 98,5% Analysis of Variance Source DF SS MS F P Regression ,80 703,90 161,99 0,001 Residual Error 3 13,04 4,35 Total ,83 Vi ser att det ser bra ut (men gör ingen ordentlig utvärdering här). 26