Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm
Multipel linjär regressionsmodell Hittills har vi behandlat modeller av typen: y i = β 0 +β 1 x i + ε i och y i = β 0 +β 1 x 1,i + β 2 x 2,i +…+ β p x p,i + ε i. y i är den beroende variabeln (responsvar.) x 1, x 2 …x p är oberoende variabler (förklaringsvar.) β 0, β 1, β 2 …β p är parametrar (konstanter) ε i är en slumpterm
Antaganden om slumpterm ε ~ N(0, σ) för alla värden på x 1, x 2 …x p ε i är oberoende av ε j för alla i≠j Notera: De test vi gör och de konfidensintervall / prediktionsintervall vi beräknar är baserade på att antagandena om slumptermen är uppfyllda.
Residualer Residualerna i en multipel linjär regression är: e i = y i – ŷ i Undersök alltid fördelningen på residualerna. Plotta även residualerna mot de förklarande variablerna. Variationen, σ, skattas med s.
Ibland är de modeller som vi hittills behandlat för enkla för att kunna beskriva sambandet mellan responsvariabeln och de förklarande variablerna. Vi kan behöva modeller av typ: y= β 0 + β 1 x+ β 1 x 2 + ε y= β 0 +β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε
Exempel 1 Vid ett odlingsförsök observerade man avkastningen per ytenhet från ett antal försöksytor som tillförts med olika mängder konstgödsel. Försöket gav följande resultat: Avkastning (dt/ha) Y Gödsel (dt/ha) x
Steg 1: Anpassa y i = β 0 +β 1 x i + ε till data. The regression equation is Avkastning = 31,3 + 7,00 Gödsel Predictor Coef SE Coef T P Constant 31,33 11,05 2,84 0,047 Gödsel 7,000 2,837 2,47 0,069 S = 11,8673 R-Sq = 60,4% R-Sq(adj) = 50,4%
Steg 2: Utöka modellen med en kvadratisk term Ny modell: y i = β 0 +β 1 x i +β 2 x i 2 + ε Avkastning (dt/ha) Y Gödsel (dt/ha) xx2x
The regression equation is Avkastning = - 4, ,9 Gödsel - 3,84 Gödsel^2 Predictor Coef SE Coef T P Constant -4,500 3,729 -1,21 0,314 Gödsel 33,875 2,440 13,89 0,001 Gödsel^2 -3,8393 0, ,25 0,002 S = 2,08452 R-Sq = 99,1% R-Sq(adj) = 98,5% Analysis of Variance Source DF SS MS F P Regression ,80 703,90 161,99 0,001 Residual Error 3 13,04 4,35 Total ,83
Exempel 2 I en undersökning noterades anställningstid och yrkeserfarenhet för 50 anställda personer på ett visst företag. Sambandet mellan dessa variabler ses nedan:
En enkel linjär regressionsmodell ansattes till data. The regression equation is Yrkeserfarenhet(år) = - 18,3 + 0,862 Ålder Predictor Coef SE Coef T P Constant -18,284 3,027 -6,04 0,000 Ålder 0, , ,53 0,000 S = 5,39941 R-Sq = 76,6% R-Sq(adj) = 76,1%
Samband mellan yrkeserfarenhet och ålder för män och kvinnor. (Kön 0 är kvinna. Kön 1 är man)
Indikatorvariabel (dummyvariabel) Kvinnor förefaller, enligt spridningsdiagrammet, ha kortare yrkeserfarenhet än män vid samma ålder. Hur kan man mäta skillnaden i yreserfarenhet mellan män och kvinnor? Svar: Skapa en indikatorvariabel för den kategoriska variabeln kön.
Ny modell: y i = β 0 +β 1 x 1,i +β 2 x 2,i + ε Om x 2 =0 (kvinna) så blir modellen: y i = β 0 +β 1 x 1,i + ε Om x 2 =1 (man) så blir modellen: y i = (β 0 +β 2 )+β 1 x 1,i + ε Detta resulterar i att vi skattar två linjer. Linjerna har samma lutning men olika intercept. (Om man även vill ha olika lutning så krävs en interaktionsterm.)
The regression equation is Yrkeserfarenhet(år) = - 19,1 + 0,805 Ålder + 8,05 Kön Predictor Coef SE Coef T P Constant -19,090 2,073 -9,21 0,000 Ålder 0, , ,90 0,000 Kön 8,054 1,080 7,46 0,000 S = 3,69229 R-Sq = 89,3% R-Sq(adj) = 88,8% Analysis of Variance Source DF SS MS F P Regression ,4 2668,7 195,75 0,000 Residual Error ,8 13,6 Total ,2
Det ser ut som om variansen ökar med ŷ. Vad kan detta bero på?
Kvinnor förefaller också ha en annan utveckling än män. Dvs, det verkar som om mäns yrkeserfarenhet stiger snabbare än kvinnors. Hur kan vi fånga in skillnaden i utveckling i modellen?
Svar: Skapa en interaktionsterm mellan yrkeserfarenhet och kön: x 3 = x 1 *x 2 Ny modell: y i = β 0 +β 1 x 1,i +β 2 x 2,i + β 3 x 3,i +ε Kvinna: y i = β 0 +β 1 x 1,i +ε Man: y i = (β 0 +β 2 )+(β 1 +β 3 )x 1,i +ε
The regression equation is Yrkeserfarenhet(år) = - 15,4 + 0,714 Ålder - 1,85 Kön + 0,229 Kön *Ålder Predictor Coef SE Coef T P Constant -15,354 2,481 -6,19 0,000 Ålder 0, , ,26 0,000 Kön -1,850 4,134 -0,45 0,657 Kön *Ålder 0, , ,47 0,017 S = 3,50640 R-Sq = 90,5% R-Sq(adj) = 89,9% Analysis of Variance Source DF SS MS F P Regression ,6 1804,2 146,74 0,000 Residual Error ,6 12,3 Total ,2 Nu är inte längre variabeln kön signifikant…
The regression equation is Yrkeserfarenhet(år) = - 16,0 + 0,730 Ålder + 0,189 Kön *Ålder Predictor Coef SE Coef T P Constant -16,020 1,968 -8,14 0,000 Ålder 0, , ,50 0,000 Kön *Ålder 0, , ,29 0,000 S = 3,47644 R-Sq = 90,5% R-Sq(adj) = 90,1% Analysis of Variance Source DF SS MS F P Regression ,2 2705,1 223,83 0,000 Residual Error ,0 12,1 Total ,2