Presentation laddar. Vänta.

Presentation laddar. Vänta.

Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.

Liknande presentationer


En presentation över ämnet: "Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm."— Presentationens avskrift:

1 Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm

2 Multipel linjär regressionsmodell Hittills har vi behandlat modeller av typen: y i = β 0 +β 1 x i + ε i och y i = β 0 +β 1 x 1,i + β 2 x 2,i +…+ β p x p,i + ε i. y i är den beroende variabeln (responsvar.) x 1, x 2 …x p är oberoende variabler (förklaringsvar.) β 0, β 1, β 2 …β p är parametrar (konstanter) ε i är en slumpterm

3 Antaganden om slumpterm ε ~ N(0, σ) för alla värden på x 1, x 2 …x p ε i är oberoende av ε j för alla i≠j Notera: De test vi gör och de konfidensintervall / prediktionsintervall vi beräknar är baserade på att antagandena om slumptermen är uppfyllda.

4 Residualer Residualerna i en multipel linjär regression är: e i = y i – ŷ i Undersök alltid fördelningen på residualerna. Plotta även residualerna mot de förklarande variablerna. Variationen, σ, skattas med s.

5 Ibland är de modeller som vi hittills behandlat för enkla för att kunna beskriva sambandet mellan responsvariabeln och de förklarande variablerna. Vi kan behöva modeller av typ: y= β 0 + β 1 x+ β 1 x 2 + ε y= β 0 +β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε

6 Exempel 1 Vid ett odlingsförsök observerade man avkastningen per ytenhet från ett antal försöksytor som tillförts med olika mängder konstgödsel. Försöket gav följande resultat: Avkastning (dt/ha) Y Gödsel (dt/ha) x 251 502 603 704 5 606

7 Steg 1: Anpassa y i = β 0 +β 1 x i + ε till data. The regression equation is Avkastning = 31,3 + 7,00 Gödsel Predictor Coef SE Coef T P Constant 31,33 11,05 2,84 0,047 Gödsel 7,000 2,837 2,47 0,069 S = 11,8673 R-Sq = 60,4% R-Sq(adj) = 50,4%

8 Steg 2: Utöka modellen med en kvadratisk term Ny modell: y i = β 0 +β 1 x i +β 2 x i 2 + ε Avkastning (dt/ha) Y Gödsel (dt/ha) xx2x2 2511 5024 6039 70416 70525 60636

9 The regression equation is Avkastning = - 4,50 + 33,9 Gödsel - 3,84 Gödsel^2 Predictor Coef SE Coef T P Constant -4,500 3,729 -1,21 0,314 Gödsel 33,875 2,440 13,89 0,001 Gödsel^2 -3,8393 0,3412 -11,25 0,002 S = 2,08452 R-Sq = 99,1% R-Sq(adj) = 98,5% Analysis of Variance Source DF SS MS F P Regression 2 1407,80 703,90 161,99 0,001 Residual Error 3 13,04 4,35 Total 5 1420,83

10

11 Exempel 2 I en undersökning noterades anställningstid och yrkeserfarenhet för 50 anställda personer på ett visst företag. Sambandet mellan dessa variabler ses nedan:

12 En enkel linjär regressionsmodell ansattes till data. The regression equation is Yrkeserfarenhet(år) = - 18,3 + 0,862 Ålder Predictor Coef SE Coef T P Constant -18,284 3,027 -6,04 0,000 Ålder 0,86200 0,06878 12,53 0,000 S = 5,39941 R-Sq = 76,6% R-Sq(adj) = 76,1%

13 Samband mellan yrkeserfarenhet och ålder för män och kvinnor. (Kön 0 är kvinna. Kön 1 är man)

14 Indikatorvariabel (dummyvariabel) Kvinnor förefaller, enligt spridningsdiagrammet, ha kortare yrkeserfarenhet än män vid samma ålder. Hur kan man mäta skillnaden i yreserfarenhet mellan män och kvinnor? Svar: Skapa en indikatorvariabel för den kategoriska variabeln kön.

15 Ny modell: y i = β 0 +β 1 x 1,i +β 2 x 2,i + ε Om x 2 =0 (kvinna) så blir modellen: y i = β 0 +β 1 x 1,i + ε Om x 2 =1 (man) så blir modellen: y i = (β 0 +β 2 )+β 1 x 1,i + ε Detta resulterar i att vi skattar två linjer. Linjerna har samma lutning men olika intercept. (Om man även vill ha olika lutning så krävs en interaktionsterm.)

16 The regression equation is Yrkeserfarenhet(år) = - 19,1 + 0,805 Ålder + 8,05 Kön Predictor Coef SE Coef T P Constant -19,090 2,073 -9,21 0,000 Ålder 0,80528 0,04765 16,90 0,000 Kön 8,054 1,080 7,46 0,000 S = 3,69229 R-Sq = 89,3% R-Sq(adj) = 88,8% Analysis of Variance Source DF SS MS F P Regression 2 5337,4 2668,7 195,75 0,000 Residual Error 47 640,8 13,6 Total 49 5978,2

17 Det ser ut som om variansen ökar med ŷ. Vad kan detta bero på?

18 Kvinnor förefaller också ha en annan utveckling än män. Dvs, det verkar som om mäns yrkeserfarenhet stiger snabbare än kvinnors. Hur kan vi fånga in skillnaden i utveckling i modellen?

19 Svar: Skapa en interaktionsterm mellan yrkeserfarenhet och kön: x 3 = x 1 *x 2 Ny modell: y i = β 0 +β 1 x 1,i +β 2 x 2,i + β 3 x 3,i +ε Kvinna: y i = β 0 +β 1 x 1,i +ε Man: y i = (β 0 +β 2 )+(β 1 +β 3 )x 1,i +ε

20 The regression equation is Yrkeserfarenhet(år) = - 15,4 + 0,714 Ålder - 1,85 Kön + 0,229 Kön *Ålder Predictor Coef SE Coef T P Constant -15,354 2,481 -6,19 0,000 Ålder 0,71443 0,05828 12,26 0,000 Kön -1,850 4,134 -0,45 0,657 Kön *Ålder 0,22867 0,09247 2,47 0,017 S = 3,50640 R-Sq = 90,5% R-Sq(adj) = 89,9% Analysis of Variance Source DF SS MS F P Regression 3 5412,6 1804,2 146,74 0,000 Residual Error 46 565,6 12,3 Total 49 5978,2 Nu är inte längre variabeln kön signifikant…

21 The regression equation is Yrkeserfarenhet(år) = - 16,0 + 0,730 Ålder + 0,189 Kön *Ålder Predictor Coef SE Coef T P Constant -16,020 1,968 -8,14 0,000 Ålder 0,72956 0,04708 15,50 0,000 Kön *Ålder 0,18858 0,02274 8,29 0,000 S = 3,47644 R-Sq = 90,5% R-Sq(adj) = 90,1% Analysis of Variance Source DF SS MS F P Regression 2 5410,2 2705,1 223,83 0,000 Residual Error 47 568,0 12,1 Total 49 5978,2


Ladda ner ppt "Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm."

Liknande presentationer


Google-annonser