Multipel linjär regressionsanalys

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

Talföljder formler och summor
Atomer och kemiska reaktioner
Icke-linjära modeller:
Vattenkemiska data Workshop, maj 2014 Claudia von Brömssen, SLU.
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Regressions- och tidsserieanalys
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
Elkraft 7.5 hp distans: Kap. 3 Likströmsmotorn 3:1
FL10 732G81 Linköpings universitet.
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
V E R S I O N N R 2. 0 T A V E L I D É E R I M I L J Ö.
INFÖR NATIONELLA PROVET
1 Funktioner Nr 3 Funktionstyper, högre ordningens funktioner och polymorfism.
Antag att följande värden hos kapitalet har gällt:
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Vad ingår kursen? i korta drag
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
TÄNK PÅ ETT HELTAL MELLAN 1-50
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
732G81 Statistik för internationella civilekonomer
1 Föreläsning 6 Programmeringsteknik och Matlab 2D1312/2D1305 Metoder & parametrar Array API och klassen ArrayList.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Multipel regressionsanalys
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.
Binomialsannolikheter ritas i ett stolpdiagram
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Sannolikhet Stickprov Fördelningar
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
Hur bra är modellen som vi har anpassat?
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Sambandsmodeller, 10 p = 15 hp
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Icke-linjära modeller:
Kvadratsummeuppdelning/Variansanalys
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Några allmänna räkneregler för sannolikheter
Regressions- och tidsserieanalys
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Grundläggande statistik, ht 09, AN
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
1 Icke-linjär regression Sid (i kapitel 16.1)
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
1. Kontinuerliga variabler
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Presentationens avskrift:

Multipel linjär regressionsanalys I stället för en förklarande variabel kan vi inkludera flera. Vi får dock tänka på att inte inkludera sådana variabler som inte har någon eller som bara har marginell betydelse för responsvariabeln. Återigen inkluderas en felterm e i modellen, som står för den del i variationen av Y som inte kan förklaras genom modellen. Feltermen har medelvärde 0 och varians s2 och är normalfördelad och varje e är oberoende av de andra e.

t-test och konfidensintervall för de enskilda parametrarna (b1, b2, t-test och konfidensintervall för de enskilda parametrarna (b1, b2, ..., bp-1) i modellen beräknas i princip på samma sätt som förut. Men nu använder man en t-fördelning med n-p frihetsgrader. F-test korrigeras lite genom att inkludera p-1 (antal förklarande variabler i modellen): Observera att formeln är den samma som förut om man sätter p-1=1. Förklaringsgrad beräknas fortfarande:

Kvadratsummeuppdelningen gäller förstås också: SST = SSR + SSE SST, SSR beräknas som förut, och även SSE beräknas som förut: eftersom punktskattningen/punktprognosen nu är: Observera att alla sådana beräkningar görs för varje observation, även om index i inte alltid är med.

Konfidensintervall för punktskattningen och prognosintervall for punktprognosen beräknas i princip på samma sätt Konfidensintervall Prognosintervall

Källa: ”MTBWIN”/Student12/HOMES.MTW Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Column Name Count Description Modell Översättning C1 Price 150 Price y pris C2 Area 150 Area in square feet x1 bostadsyta C3 Acres 150 Acres x2 tomtyta C4 Rooms 150 Number of rooms x3 antal rum C5 Baths 150 Number of baths x4 antal badrum Källa: ”MTBWIN”/Student12/HOMES.MTW

Pris mot bostadsyta

Pris mot tomtyta

Pris mot antal rum

Pris mot antal badrum

Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de som verkar viktigast: bostadsyta och antal rum.

Signifikanstest för t.ex. b1: Regression Analysis: Price versus Area, Rooms The regression equation is Price = 64221 + 49.7 Area - 141 Rooms Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962 Signifikanstest för t.ex. b1: är den skattade standardavvikelsen av b1 Vi jämför t med t-fördelningen med n-p=150-3 frihetsgrader.

t-fördelning med 147 frihetsgrader för ett dubbelsidig test är p-värdet sannolikheten att få ett värde t eller ännu större eller ett värde –t eller ännu mindre. -6.62 t=6.62

inte signifikant Regression Analysis: Price versus Area, Rooms The regression equation is Price = 64221 + 49.7 Area - 141 Rooms Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962 inte signifikant

F-testet är signifikant S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 F-testet är signifikant

Vad står F-testet för i detta fall? F-testet testar om ‘den linjära regressionsmodellen’ är signifkant eller inte. Om vi bara har en förklarande variabel då är det samma som att testa om denna variabel (parameter b1) är signifikant. Om vi har flera förklarande variabler, då testar vi om H0: alla parametrar b1, b2,..., bp-1 är lika med 0 H1: minst en av parametrarna b1, b2,..., bp-1 är inte 0 För att bestämma vilka parametrar som är skilda från 0 använder vi t-testet.

Vad är R-sq(adj) då? Justerad R2:

När man anpassar en regressionsmodell har man oftast två mål: att hitta en modell som beskriver datamaterialet så bra som möjligt (de anpassade värdena ska ligga nära observationerna ) att hitta en modell som kan göra prediktioner för nya observationer. Göra bra punktprediktioner. Genom att inkludera stora mängder förklarande variabler kan man ofta få bättre och bättre anpassning till datamaterialet, men prognoserna för nya observationer kan bli sämre (överanpassning).

Det vanliga R2-värdet ökar alltid när man lägger till fler förklarande variabler. Det justerade R2-värdet ökar inte alltid om man lägger till fler förklarande variabler, eftersom det innehåller en korrektion för antalet förklarande variabler i modellen

Punktskattning och punktprognos Nu vill vi göra en prognos för priset på en fastighet med bostadsytan: 3000 ft2 och antal rum: 6, och ett 95% prediktionsintervall i MINITAB

Prediktionsintervall Regression Analysis: Price versus Area, Rooms  Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00 Prediktionsintervall

Regression Analysis: Price versus Area, Rooms  Samma utskrift som tidgare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00 Konfidensintervall för det genomsnittliga priset på fastigheter med 3000 ft2 och 6 rum.

SE Fit är standardavvikelsen för punktskattningen New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX SE Fit är standardavvikelsen för punktskattningen

Får vi någon ytterligare information från prognosen? Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Varning att fastigheten vi vill veta någonting om har extrema värden för x. Vi kan göra tillförlitliga prognoser bara för fastigheter där vi har liknande fastigheter redan i ursprungliga datamaterialet.

Om vi t.ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där vi har observationer är inte tillförlitliga

Pris mot bostadsyta Få observation med bostadsyta 3000 ft2 eller större, men ändå väl inom området där vi har observation

Pris mot antal rum

Om vi tittar på datamaterialet så ser Vad är då problemet? Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 ft2. Det är alltså kombinationen 3000 ft2 och 6 rum som är extrem och vi måste fundera över om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. pris area rooms 117000 1008 6 108000 1036 126500 1092 133000 1100 116000 98000 1165 129000 1200 126000 1232 1248 110000 1289 117500 1300 121900 100000 1338 128500 1344 135000 1400 140000 1403 152000 1450 142500 1552 150000 1564 120500 1600 141900 1632 145900 1680 144900 1900