Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.

Slides:



Advertisements
Liknande presentationer
Icke-linjära modeller:
Advertisements

Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Regressions- och tidsserieanalys
FL10 732G81 Linköpings universitet.
Inferens om en ändlig population Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Förvaltningshögskolan Makroekonomi Osvaldo Salas
Olika mått på grad av fetma - Spelar det någon roll hur vi mäter?
Antag att följande värden hos kapitalet har gällt:
Chitvå-test Regression forts.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Multipel regressionsanalys
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.
Statsvetenskap 3, statsvetenskapliga metoder
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Simulering Introduktion Exempel: Antag att någon kastar tärning
N V M DIAGRAM Samband mellan q V och M
Hur bra är modellen som vi har anpassat?
Sambandsmodeller, 10 p = 15 hp
3. Multipel regression 2005 © Rune Höglund Multipel regression.
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Icke-linjära modeller:
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
Kvadratsummeuppdelning/Variansanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Några allmänna räkneregler för sannolikheter
Regressions- och tidsserieanalys
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Statistik för AT-läkare Robert Hahn, Södertälje sjukhus.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Man har två kvalitativa variabler som man vill gemensamt undersöka. 1.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Föreläsning 8 (Kajsa Fröjd) Logistisk regression Kap Man har en binär responsvariabel som är relaterad till en/flera kvantitativa och/ eller.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1. Kontinuerliga variabler
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Två/flera populationer och en kvalitativ variabel (”The first model” i Moore)
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Vetenskapsprojekt, rubrik
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Relation mellan variabler – samvariation, korrelation, regression
Presentationens avskrift:

Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm

Multipel linjär regressionsmodell Hittills har vi behandlat modeller av typen: y i = β 0 +β 1 x i + ε i och y i = β 0 +β 1 x 1,i + β 2 x 2,i +…+ β p x p,i + ε i. y i är den beroende variabeln (responsvar.) x 1, x 2 …x p är oberoende variabler (förklaringsvar.) β 0, β 1, β 2 …β p är parametrar (konstanter) ε i är en slumpterm

Antaganden om slumpterm ε ~ N(0, σ) för alla värden på x 1, x 2 …x p ε i är oberoende av ε j för alla i≠j Notera: De test vi gör och de konfidensintervall / prediktionsintervall vi beräknar är baserade på att antagandena om slumptermen är uppfyllda.

Residualer Residualerna i en multipel linjär regression är: e i = y i – ŷ i Undersök alltid fördelningen på residualerna. Plotta även residualerna mot de förklarande variablerna. Variationen, σ, skattas med s.

Ibland är de modeller som vi hittills behandlat för enkla för att kunna beskriva sambandet mellan responsvariabeln och de förklarande variablerna. Vi kan behöva modeller av typ: y= β 0 + β 1 x+ β 1 x 2 + ε y= β 0 +β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε

Exempel 1 Vid ett odlingsförsök observerade man avkastningen per ytenhet från ett antal försöksytor som tillförts med olika mängder konstgödsel. Försöket gav följande resultat: Avkastning (dt/ha) Y Gödsel (dt/ha) x

Steg 1: Anpassa y i = β 0 +β 1 x i + ε till data. The regression equation is Avkastning = 31,3 + 7,00 Gödsel Predictor Coef SE Coef T P Constant 31,33 11,05 2,84 0,047 Gödsel 7,000 2,837 2,47 0,069 S = 11,8673 R-Sq = 60,4% R-Sq(adj) = 50,4%

Steg 2: Utöka modellen med en kvadratisk term Ny modell: y i = β 0 +β 1 x i +β 2 x i 2 + ε Avkastning (dt/ha) Y Gödsel (dt/ha) xx2x

The regression equation is Avkastning = - 4, ,9 Gödsel - 3,84 Gödsel^2 Predictor Coef SE Coef T P Constant -4,500 3,729 -1,21 0,314 Gödsel 33,875 2,440 13,89 0,001 Gödsel^2 -3,8393 0, ,25 0,002 S = 2,08452 R-Sq = 99,1% R-Sq(adj) = 98,5% Analysis of Variance Source DF SS MS F P Regression ,80 703,90 161,99 0,001 Residual Error 3 13,04 4,35 Total ,83

Exempel 2 I en undersökning noterades anställningstid och yrkeserfarenhet för 50 anställda personer på ett visst företag. Sambandet mellan dessa variabler ses nedan:

En enkel linjär regressionsmodell ansattes till data. The regression equation is Yrkeserfarenhet(år) = - 18,3 + 0,862 Ålder Predictor Coef SE Coef T P Constant -18,284 3,027 -6,04 0,000 Ålder 0, , ,53 0,000 S = 5,39941 R-Sq = 76,6% R-Sq(adj) = 76,1%

Samband mellan yrkeserfarenhet och ålder för män och kvinnor. (Kön 0 är kvinna. Kön 1 är man)

Indikatorvariabel (dummyvariabel) Kvinnor förefaller, enligt spridningsdiagrammet, ha kortare yrkeserfarenhet än män vid samma ålder. Hur kan man mäta skillnaden i yreserfarenhet mellan män och kvinnor? Svar: Skapa en indikatorvariabel för den kategoriska variabeln kön.

Ny modell: y i = β 0 +β 1 x 1,i +β 2 x 2,i + ε Om x 2 =0 (kvinna) så blir modellen: y i = β 0 +β 1 x 1,i + ε Om x 2 =1 (man) så blir modellen: y i = (β 0 +β 2 )+β 1 x 1,i + ε Detta resulterar i att vi skattar två linjer. Linjerna har samma lutning men olika intercept. (Om man även vill ha olika lutning så krävs en interaktionsterm.)

The regression equation is Yrkeserfarenhet(år) = - 19,1 + 0,805 Ålder + 8,05 Kön Predictor Coef SE Coef T P Constant -19,090 2,073 -9,21 0,000 Ålder 0, , ,90 0,000 Kön 8,054 1,080 7,46 0,000 S = 3,69229 R-Sq = 89,3% R-Sq(adj) = 88,8% Analysis of Variance Source DF SS MS F P Regression ,4 2668,7 195,75 0,000 Residual Error ,8 13,6 Total ,2

Det ser ut som om variansen ökar med ŷ. Vad kan detta bero på?

Kvinnor förefaller också ha en annan utveckling än män. Dvs, det verkar som om mäns yrkeserfarenhet stiger snabbare än kvinnors. Hur kan vi fånga in skillnaden i utveckling i modellen?

Svar: Skapa en interaktionsterm mellan yrkeserfarenhet och kön: x 3 = x 1 *x 2 Ny modell: y i = β 0 +β 1 x 1,i +β 2 x 2,i + β 3 x 3,i +ε Kvinna: y i = β 0 +β 1 x 1,i +ε Man: y i = (β 0 +β 2 )+(β 1 +β 3 )x 1,i +ε

The regression equation is Yrkeserfarenhet(år) = - 15,4 + 0,714 Ålder - 1,85 Kön + 0,229 Kön *Ålder Predictor Coef SE Coef T P Constant -15,354 2,481 -6,19 0,000 Ålder 0, , ,26 0,000 Kön -1,850 4,134 -0,45 0,657 Kön *Ålder 0, , ,47 0,017 S = 3,50640 R-Sq = 90,5% R-Sq(adj) = 89,9% Analysis of Variance Source DF SS MS F P Regression ,6 1804,2 146,74 0,000 Residual Error ,6 12,3 Total ,2 Nu är inte längre variabeln kön signifikant…

The regression equation is Yrkeserfarenhet(år) = - 16,0 + 0,730 Ålder + 0,189 Kön *Ålder Predictor Coef SE Coef T P Constant -16,020 1,968 -8,14 0,000 Ålder 0, , ,50 0,000 Kön *Ålder 0, , ,29 0,000 S = 3,47644 R-Sq = 90,5% R-Sq(adj) = 90,1% Analysis of Variance Source DF SS MS F P Regression ,2 2705,1 223,83 0,000 Residual Error ,0 12,1 Total ,2