1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

Talföljder formler och summor
Icke-linjära modeller:
En genomgång av spelet: Dubbelkrig-Grön
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Numeriska beräkningar i Naturvetenskap och Teknik
Funktioner och programorganisation
Regressions- och tidsserieanalys
Föreläsning 7 Analys av algoritmer T(n) och ordo
FL10 732G81 Linköpings universitet.
Inferens om en ändlig population Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Pointers. int a=5; int f(int b) { a--; b++; return b; } int main() { int a=3; printf("%d,",f(a)); printf("%d",a); return 0; }
Robert Gidehag & Jonas Arnberg. Studiens frågeställningar Övergripande: Är den svenska alkoholpolitiken effektiv på 2000-talet?
Antag att följande värden hos kapitalet har gällt:
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Chitvå-test Regression forts.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Centrala Gränsvärdessatsen:
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Multipel regressionsanalys
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Hur bra är modellen som vi har anpassat?
Sambandsmodeller, 10 p = 15 hp
3. Multipel regression 2005 © Rune Höglund Multipel regression.
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Icke-linjära modeller:
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
Kvadratsummeuppdelning/Variansanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Några allmänna räkneregler för sannolikheter
Regressions- och tidsserieanalys
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Man har två kvalitativa variabler som man vill gemensamt undersöka. 1.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Presentationens avskrift:

1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell med alla förklaringsvariabler inkluderade: y=β 0 + β 1 ·x 1 + β 2 ·x 2 + β 3 ·x 3 + β 4 ·x 4 + β 5 ·x ε Intercept Area Acres Rooms Baths Rooms 2 Felterm Den nya variabeln är alltså antal rum i kvadrat och har ingen praktisk tolkning, men vi kan genomföra en analys där vi förväntar oss ett högt pris om fastigheten har lagom många rum.

2 Pris mot antal rum

3

4 Vi använder en kvadratisk term i modellen: y=β 0 + β 3 ·x 3 + β 5 ·x ε men vi behåller även originalvariabeln (alltså x 3 ) för att göra modellen mer flexibel.

5 Regression Analysis: Price versus Rooms The regression equation is Price = Rooms Predictor Coef SE Coef T P Constant ,76 0,007 Rooms ,58 0,000 S = R-Sq = 33,2% R-Sq(adj) = 32,8%

6 Regression Analysis: Price versus Rooms, Rooms_sq The regression equation is Price = Rooms Rooms_sq Predictor Coef SE Coef T P Constant Rooms Rooms_sq S = R-Sq = 35.6% R-Sq(adj) = 34.7% båda signifikanta parametern b 5 är negativ: den anpassade funktionen har ett maximum

7

8 Jämfört med en regression där alla termer är linjära är parametrarna i en kvadratisk regression svårare att tolka. I modellen =b 0 + b 3 ·x 3 kan vi säga att priset i snitt för fastigheten ökar med b 3 USD för varje ytterligare rum. I modellen =b 0 + b 3 ·x 3 + b 5 ·x 3 2 ökar priset för fastigheten med varje ytterligare rum, men bara upp till ett visst antal rum, sen stabiliseras priset.

9 Komplexa samband mellan en förklarande variabel och en responsvariabel kan alltså tas med i modellen genom kvadratiska eller även kubiska termer (x 3 ). Samtidigt måste man fundera på om det verkligen är den här variablen själv som har ett krökt samband till priset eller om det istället är en samspel variabeln ‘antal rum’ och andra förklarande variabler: en liten fastighet med många rum eller en stor fastighet med få rum.....

10 Interaktionstermer – samspelstermer Vi bildar då nya variabeln x 1 ·x 3 och analyserar modellen y=β 0 + β 1 ·x 1 + β 3 ·x 3 + β 5 ·x β 6 ·x 1 ·x 3 + ε bostadsyta antal rum (antal rum) 2 bostadsyta*antal rum

11 Regression Analysis: Price versus Area; Rooms; Rooms_sq The regression equation is Price = ,3 Area Rooms Rooms_sq Predictor Coef SE Coef T P Constant ,46 0,647 Area 49,326 7,379 6,68 0,000 Rooms ,36 0,020 Rooms_sq -1529,1 613,6 -2,49 0,014 S = R-Sq = 50,7% R-Sq(adj) = 49,6%

12 The regression equation is Price = Area Rooms Rooms_sq Area*Rooms Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq Area*Roo S = R-Sq = 53.4% R-Sq(adj) = 52.2% Samspelstermen har tagit över den kvadratiska termens roll.

13 Regression Analysis: Price versus Area; Rooms; Area*Roo The regression equation is Price = Area Rooms - 7,32 Area*Roo Predictor Coef SE Coef T P Constant ,98 0,330 Area 108,55 18,06 6,01 0,000 Rooms ,70 0,008 Area*Roo -7,321 2,058 -3,56 0,001 S = R-Sq = 52,7% R-Sq(adj) = 51,7%

upp till 5 rum; 2... mellan 6 och 8 rum; 3...mer än 8 rum

15 Regressionslinjen som bekriver sambandet mellan priset och bostadsytan är beroende på hur många rum det finns i huset. I regressionsanalysen för detta datamaterial kan vi alltså ersätta den kvadratiska termen för antal rum med en samspelsterm (bostadsyta * antal rum). Modellen är då: y=β 0 + β 1 ·x 1 + β 3 ·x 3 + β 6 ·x 1 ·x 3 + ε De motsvarande linjära termerna ( x 1 och x 2 ) behåller vi vanligtvis också i modellen.

16 Kvalitativa variabler inga numeriskt tolkningsbara värden utan värden som är koder för olika klasser av observationer. Ett exempel är en variabel för kön, som kan anta värdet man eller kvinna En sådan variabel skulle man kunna koda som 0 för män och 1 för kvinnor och därmed använda i en regressionsanlays Ett annat exempel är en variabel som är 1 för småföretag, 2 för mellanstora företag och 3 för stora företag.

17 För att kunna använda sådana kvalitativa variabler i regressionsanalysen krävs att de görs om till s k indikatorvariabler eller dummyvariabler. (Andra namn är 0/1-variabler resp. dikotoma variabler) Om vi inför en kodning 0 för män och 1 för kvinnor så har vi redan en indikatorvariabel som direkt kan användas. I fallet där vi kodar företagen, måste vi skapa flera nya variabler: –en som är 1 om företaget är liten och 0 annars –en som är 1 om företaget är mellanstor och 0 annars Den tredje variabel som vi kunde skapa (1 om stor, 0 annars) får inte vara med i analysen.

18  FöretagFöretagstypUrsprunglig kodD1D1 D2D2 1Liten110 2Mellanstor201 3Stor300 4Liten110 5Stor300 Alltså: Grundregel: Om den kvalitativa variabeln har m olika koder eller värden (kallas också nivåer) skall m  1 indikatorvariabler användas.

19 Minitab har funktioner för att – manuellt koda om en variabels värden till andra värden – skapa indikatorvariabler för att ersätta en kvalitativ variabel

20 I datamaterialet med fastighetspriser skulle vi kunna koda om variabeln ’antal rum’ på följande sätt: fastigheter med högst 6 rum fastigheter med fler än 6 rum För att göra detta kan vi skapa en indikatorvariabel som är =0 för fastigheter med högst 6 rum och 1 för övriga, dvs

21 Nu kan vi använda denna indikatorvariabel (dummy) istället för originalvariabeln. y=β 0 + β 1 ·x 1 + β 7 ·D + ε bostadsytadummy som är 1 om fastigheten har mer än 6 rum Regression Analysis: Price versus Area, D The regression equation is Price = Area D Predictor Coef SE Coef T P Constant Area D S = R-Sq = 49.3% R-Sq(adj) = 48.6%

22 Predictor Coef SE Coef T P Constant Area D Om man ignorerar att dummyvariabeln D inte är signifikant så går det att tolka modellen på följande sätt. Varje fastighet som har 7 rum eller fler får ett försäljningspris som är USD högre än jämförbar fastighet med färre rum. Med D=1: Med D=0:

23 Parallella linjer, men skillnad i y-nivån

24 Eftersom vi såg förut att en samspelsterm (för interaktioner mellan bostadsyta och antal rum) verkar vara bra, kan vi lägger till en sådan även nu. y=β 0 + β 1 ·x 1 + β 7 ·D + β 8 ·x 1 ·D + ε Regression Analysis: Price versus Area, D, Area*D The regression equation is Price = Area D Area*D Predictor Coef SE Coef T P Constant Area D Area*D S = R-Sq = 93.3% R-Sq(adj) = 93.2% Samtliga variabler är signifikanta och förklaringsgraden är mycket bra.

25 Predictor Coef SE Coef T P Constant Area D Area*D Hur blir nu tolkningen av denna modell? Vi måste återigen skilja på de två fallen med D=0 och D=1. Med D = 1 Med D = 0

26 I detta fall får vi alltså två regressionslinjer som skiljer sig i både y-nivån (intercept) och lutningen. Högst 6 rum: Priset ökar med i genomsnitt 7454 dollar då bostadsytan ökar med 1000 ft2 7 eller fler rum: Priset ökar med i genomsnitt 8403 dollar då bostadsytan ökar med 1000 ft2

27 Det finns ett samband mellan dummyvariabeln (fler än 6 rum eller ej) och bostadsytan. Regressionslinjernas lutningar är olika.

28 Om vi har fler än 2 grupper behöver vi fler dummy variabler. t.ex. grupp 1: rum grupp 2: rum grupp 3: rum grupp 4: 11 – rum o fler Vi skapar 3 dummy variabler: antal rumD1D2D

29 Ibland kan vi även arbeta med en annan kodning: t.ex. grupp 1: rum1 grupp 2: rum2 grupp 3: rum3 grupp 4: 11 – rum o fler4 men detta är bara möjligt om man kan anta att effekten (prisökningen) är samma när man går över från grupp 1 till grupp 2, som när man går över från grupp 2 till grupp 3, osv.

30 Partiellt F-test Vi har nu en modell för fastighetspriset som använder sig av följande förklarande variabler: –bostadsyta (area) –antal rum (rooms) –samspelsterm (area*rooms) Dessutom har vi sett att även tomtyta har betydelse. För den sista förklarande variabeln som är tillgänglig (antal badrum) skulle vi kunna anta att den beter sig som variabeln ‘antal rum’. Vi skulle därför kunna använda oss av själva variabeln, men också inkludera en samspelsterm (area*baths).

31 The regression equation is Price = Area Acres Rooms Area*Rooms Baths Area*Baths Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo Baths Area*Bat S = R-Sq = 70.9% R-Sq(adj) = 69.7% Förklaringsgraden är ganska bra, men ingen av variablerna som har med antal badrum att göra är signifikant på 5%-nivån.

32 Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 Source DF Seq SS Area E+11 Acres Rooms Area*Roo Baths Area*Bat F-testet anger att minst en av de ingående x-variablerna har betydelse. t-testen (på föreg. sida) visar att fyra variabler har det, men inte de två sista. Räcker det då med 4 förklarande variabler (area, acres, rooms, area*rooms)?

33 Vi kan köra regressionsanalysen en gång till och då lämna bort de två variablerna som inte var signifikanta. The regression equation is Price = Area Acres Rooms Area*Rooms Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo S = R-Sq = 68.0% R-Sq(adj) = 67.1% Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 Alla variabler signifikanta, något lägre justerat R 2 -värde.

34 Kan vi jämföra de två modellerna och bestämma om vi ska ha med antal badrum som förklarande variabel? Den fullständiga modellen kan skrivas: y=  0 +  1 · x 1   2 · x 2 +  3 · x 3 +  5 · x 1 x 3 +  4 · x 4 +  6 · x 1 x 4 +  där x 1 =area, x 2 =acres, x 3 =rooms, x 4 =baths och därmed x 1 x 3 samspelet mellan ’area’ och ’rooms’, och x 1 x 4 samspelet mellan ’area’ och ’baths’. Den reducerade modellen kan skrivas y=  0 +  1 · x 1   2 · x 2 +  3 · x 3 +  5 · x 1 x 3 +  Det är alltså den modellen, som vi tror kan räcka för att förklara fastighetspriset.

35 Vi vill nu testa om någon av de variabler som vi har tagit bort har (signifikant) betydelse för vilket värde responsvariabeln antar. Om vi vill testa om någon av x 4 och x 1 x 4 skall läggas till blir nollhypotesen: H 0 :  4 =  6 =0 Alternativhyptesen: H 1 : minst en av  4,  6 är skild från 0

36 Som testfunktion kan vi använda där SSE R =Residualkvadratsumman (SSE) i den Reducerade (Reduced) modellen och SSE C =Residualkvadratsumman i den fullständiga modellen (Complete) k=Antal förklaringsvariabler i den fullständiga modellen g=Antal förklaringsvariabler i den reducerade modellen Vi testar alltså om minskningen i residualkvadratsumman är så pass stor (när vi lägger till de två variablerna) att vi inte kan ignorera den.

37 Om H 0 är sann får F en F-fördelning med k-g och n-k-1 frihetsgrader och vi kan alltså jämföra värdet på F med F [  ](k-g,n-k-1) I vårt fall: Den reducerade modellen Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 Den kompletta modellen Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 SSE R SSE C

38 F [0.05] (2,143)  3.07 < H 0 ska förkastas! Fastän varken antal badrum eller samspelstermen bostadsyta/antal badrum var signifikant, finns det ändå information i minst en av variablerna.

39 Testmetoden kallas Partiellt F-test eftersom vi i ett test testar om en del (partition) av modellen skall uteslutas. Om vi bara vill testa en enda variabel (om den ska uteslutas eller ej), så är det partiella F-testet ekvivalent med t-testet för denna variabel.

40 Om vi kommer (som i det här fallet) till slutsatsen att det finns information i minst en variabel av alla de vi testade, så får vi gå vidare med att ta reda på vilken variabel det kunde vara. I vårt fall skulle vi kanske välja att ta bort samspelstermen area*baths och behålla variabeln baths. The regression equation is Price = Area Acres Rooms Area*Rooms Baths Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo Baths S = R-Sq = 70.2% R-Sq(adj) = 69.2%

41 I vissa fall kan vi förenkla beräkningen något: Vi kan skriva: SSE R –SSE C = SSR C –SSR R Det går alltså att använda regressionskvadratsummorna istället för residualkvadratsummorna.

42 Analysis of Variance Source DF SS MS F P Regression E Residual Error Total E+11 Source DF Seq SS Area E+11 Acres Rooms Area*Roo Baths Area*Bat Vi kan då använda utskriften för enbart den kompletta modellen för att beräkna det partiella F-testet. SSR C =SSR(Area) + SSR(Acres | Area) + SSR(Rooms | Area, Acres) + + SSR(Area*Rooms | Area, Acres,Rooms ) + SSR(Baths | Area, Acres, Rooms, Area*Rooms) + SSR (Area*Baths | Area, Acres, Rooms, Area*Rooms, Baths) Observera ordningen! sekventiella regressionskvadratsummor

43 I den reducerade modellen blir: SSR R = SSR(Area) + SSR(Acres | Area) + SSR(Rooms | Area, Acres) + SSR(Area*Rooms | Area, Acres,Rooms ) SSR C – SSR R = SSR(Baths | Area, Acres, Rooms, Area*Rooms) + + SSR(Area*Baths | Area, Acres, Rooms, Area*Rooms, Baths) Source DF Seq SS Area E+11SSR(Area) Acres SSR(Acres|Area) Rooms SSR(Rooms|Area, Acres) Area*Roo SSR(Area*Rooms|Area, Acres, Rooms) Baths osv. Area*Bat SSR C -SSR R = = SSR R = E+11

44

45 Något om tranformationer Antag att vi upptäcker i en residualanalys att slumpvariansen (  2 ) ej är konstant. Detta ser man i ett diagram där residualerna plottas mot anpassade värden (fitted values).

46 Alla slutsatser som vi kan dra med hjälp av modellen, bygger på att vi har konstant varians i datamaterialet. Är variansen inte konstant kan vi alltså inte vara säkra på att slutsatserna är riktiga. Om variansen inte är konstant kan vi använda oss av en s k transformation av y-värdena. Följande transformationer är vanligast: Kvadratrotstransformationen kräver att y är  0, men så är ofta fallet för just ekonomiskt anknutna data. Logaritmtransformationen kräver att y > 0 och kan ge problem för vissa variabler som ibland faktiskt är just 0.

47 Andra transformationer kan också väljas, men de är mer sällsynta. Vi prövar nu att 1) Beräkna kvadratroten ur variabeln Price (fastighetspris) och använda den resulterande variabeln som vår nya responsvariabel y. 2) Logaritmera variabeln Price och använda den resulterande variabeln som vår nya responsevariabel y.

48 Rottransormationen: The regression equation is sqrt(price) = Area Acres Rooms Area*Rooms Baths Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo Baths S = R-Sq = 72.3% R-Sq(adj) = 71.4%

49 Inte mycket förändring. Rot-transformation utan transformation

50 Log-Transformationen The regression equation is loge(Price) = Area Acres Rooms Area*Rooms Baths Predictor Coef SE Coef T P Constant Area Acres Rooms Area*Roo Baths S = R-Sq = 73.7% R-Sq(adj) = 72.8%

51 Här kan man faktiskt se en förändring. Variansen blir mer konstant med log- transformationen. Log-transform utan transformation

52 Men observera: när vi vill göra en prediktion, får vi ett transformerat värde: Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) Values of Predictors for New Observations New Obs Area Acres Rooms Area*Roo Baths Om prediktionen vi får som svar är 11.78, så är värdet vi egentligen söker:

53 Vi måste också transformera tillbaka konfidensintervall och prediktionsintervall.