Regressions- och tidsserieanalys

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Kap 1 - Algebra och linjära modeller
Innehåll, huvudpresentation 4. Rangordning av ordningsstörningar (fråga 1) 5. Problem med nedskräpning (fråga 1a) 6. Problem med skadegörelse (fråga 1b)
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
Elkraft 7.5 hp distans: Kap. 3 Likströmsmotorn 3:1
FL10 732G81 Linköpings universitet.
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
V E R S I O N N R 2. 0 T A V E L I D É E R I M I L J Ö.
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
INFÖR NATIONELLA PROVET
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Robert Gidehag & Jonas Arnberg. Studiens frågeställningar Övergripande: Är den svenska alkoholpolitiken effektiv på 2000-talet?
Antag att följande värden hos kapitalet har gällt:
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Vad ingår kursen? i korta drag
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
TÄNK PÅ ETT HELTAL MELLAN 1-50
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
732G81 Statistik för internationella civilekonomer
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
732G22 Grunder i statistisk metodik
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Multipel regressionsanalys
Binomialsannolikheter ritas i ett stolpdiagram
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Sannolikhet Stickprov Fördelningar
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
Hur bra är modellen som vi har anpassat?
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Sambandsmodeller, 10 p = 15 hp
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Icke-linjära modeller:
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
732G22 Grunder i statistisk metodik
Kvadratsummeuppdelning/Variansanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Grundläggande statistik, ht 09, AN
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
1. Kontinuerliga variabler
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Multipel regression och att bygga (fungerande) modeller
Presentationens avskrift:

Regressions- och tidsserieanalys Föreläsning 3 732G05 Regressions- och tidsserieanalys

Multipel linjär regression 2017-04-05 Multipel linjär regression En påbyggnad på enkel linjär regression Beskriva en beroende variabel y utifrån k stycken förklarande variabler x1, x2, …, xk Där ε är feltermen (error term), som står för den del av variationen i y som inte kan förklaras av modellen. Feltermen antas: Ha medelvärde 0 Ha konstant varians σ2 Vara normalfördelad Vara oberoende av andra ε Linköpings universitet

Multipel linjär regression Kvadratsummor och varians Samma beräkningar för SST och SSR Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande SSE beräknas på samma sätt som innan: Variansen (σ2) skattas med MSE: Standardavvikelsen (σ) skattas med:

Multipel linjär regression Hur utreda om modellen är bra? F-test (Overall F-test, testar hela modellen) H0: Alla parametrar (β1, β2,…, βk) är lika med noll Ha: Minst en av parametrarna är skild från noll Där k är antalet parametrar i modellen Detta värde jämförs med Fα med k och n-k-1 frihetsgrader T-test (testar varje enskild variabel) Beräknas på samma sätt som i enkel linjär regression Skillnad är att t-fördelning med n-k-1 frihetsgrader används

Multipel linjär regression Hur utreda om modellen är bra? Förklaringsgrad (R2) Beräknas och tolkas på samma sätt som i enkel linjär regression Justerad förklaringsgrad ( ) R2 ökar alltid när en ny förklarande variabel läggs till i modellen Den justerade förklaringsgraden tar hänsyn till antalet förklarande variabler Denna ska användas vid jämförelse av modeller med olika antal förklarande variabler 2

Multipel linjär regression Exempel 1 Ett datamaterial bestående av 150 slumpmässigt valda husförsäljningar i USA Name Antal Beskrivning Modell Price 150 Pris y Area 150 Area i kvadratfot x1 Acres 150 Tomtyta i tunnland x2 Rooms 150 Antal rum x3 Baths 150 Antal badrum x4 Vi vill undersöka hur priset beror på de förklarande variablerna

Multipel linjär regression Exempel 1 Pris mot bostadsyta

Multipel linjär regression Exempel 1 Pris mot tomtyta

Multipel linjär regression Exempel 1 Pris mot antal rum

Multipel linjär regression Exempel 1 Pris mot antal badrum

Multipel linjär regression Exempel 1 Minitab: Stat → Regression → Regression

Multipel linjär regression Exempel 1 Regression Analysis: Price versus Area; Rooms The regression equation is Price = 64221 + 49,7 Area - 141 Rooms Predictor Coef SE Coef T P Constant 64221 12766 5,03 0,000 Area 49,673 7,507 6,62 0,000 Rooms -141 2934 -0,05 0,962 S = 30047,0 R-Sq = 48,6% R-Sq(adj) = 47,9% Analysis of Variance Source DF SS MS F P Regression 2 1,25273E+11 62636682991 69,38 0,000 Residual Error 147 1,32715E+11 902824574 Total 149 2,57989E+11

Multipel linjär regression Punktskattningar En vanlig tillämpning av multipel linjär regression är att man vill skatta (prediktera) värden för nya observationer Punktskattning (punktprediktion beräknas på samma sätt): Punktskattning (point estimate): Det skattade medelvärdet på y för alla observationer med de givna värdena på x Punktprediktion (point prediction): Värdet en individuell observation väntas ha på y med de givna värdena på x

Multipel linjär regression Intervallskattningar Konfidensintervall (hör till punktskattning) Ett intervall för medelvärdet på y med de givna värdena på x Prediktionsintervall (hör till punktprediktion) Ett intervall för värdet på y för en individuell observation med de givna värdena på x ”Distance value” fås från datorutskrift Minitab: SE Fit =

Multipel linjär regression Exempel punktskattningar och intervallskattningar Ett intervall för hus med area 3000 kvadratfot och 6 rum Minitab: Stat → Regression → Regression → Options

Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 212396 12307 (188076; 236717) (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors.

Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 212396 12307 (188076; 236717) (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors. Minitab indikerar att vår prediktion inte är helt pålitlig Vad kan detta bero på?

Multipel linjär regression Exempel punktskattningar och intervallskattningar

Multipel linjär regression Exempel Pris Area Rum 117000 1008 6 108000 1036 126500 1092 133000 1100 116000 98000 1165 129000 1200 126000 1232 1248 110000 1289 117500 1300 121900 100000 1338 128500 1344 135000 1400 140000 1403 152000 1450 142500 1552 150000 1564 120500 1600 141900 1632 145900 1680 144900 1900 Kombination 3000 kvadratfot och 6 rum finns ej i datamaterialet Är vår modell giltig för den prediktion vi ville genomföra?

Multipel linjär regression Kvadratiska och kubiska termer Det kan vara ett annat samband än linjärt mellan den beroende variabeln och en förklarande variabel Då kan man inkludera en kvadratisk eller kubisk term i regressionsmodellen Antal rum kan tyckas ha ett kvadratiskt samband med pris, en modell där pris förklaras av antal rum och antal rum i kvadrat har följande utseende: y=β0 + β3·x3 + β5·x32 + ε

Multipel linjär regression Exempel kvadratiska och kubiska termer

Multipel linjär regression Exempel kvadratiska och kubiska termer Regression Analysis: Price versus Rooms; Rooms**2 The regression equation is Price = - 45920 + 39680 Rooms - 1606 Rooms**2 Predictor Coef SE Coef T P Constant -45920 38935 -1,18 0,240 Rooms 39680 10477 3,79 0,000 Rooms**2 -1606,4 698,8 -2,30 0,023 S = 33631,2 R-Sq = 35,6% R-Sq(adj) = 34,7% Ingen praktisk tolkning av b2 Kan även användas kubiska termer Originalvariabeln behålls alltid i modellen!

Multipel linjär regression Samspelstermer (interaktionstermer) Det behöver inte vara ett kvadratiskt samband mellan den oberoende variabeln och den förklarande variabeln Det kan vara så att den förklarande variabeln samspelar med en annan förklarande variabel Relationen mellan den oberoende variabeln och en förklarande variabel kan vara beroende på värdet på en annan förklarande variabel Då bildar man en samspelsterm (interaktionsterm), vilket beskrivs i kommande exempel

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Vi bygger vidare på modellen där pris förklaras av area och antal rum Antal rum i kvadrat och interaktionstermen läggs till i modellen: y = β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Rooms**2 The regression equation is Price = - 15812 + 49,3 Area + 22544 Rooms - 1529 Rooms**2 Predictor Coef SE Coef T P Constant -15812 34481 -0,46 0,647 Area 49,326 7,379 6,68 0,000 Rooms 22544 9549 2,36 0,020 Rooms**2 -1529,1 613,6 -2,49 0,014 S = 29528,4 R-Sq = 50,7% R-Sq(adj) = 49,6% Alla variabler signifikanta när vi anpassar med den kvadratiska termen

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Rooms**2; Area*Rooms The regression equation is Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms**2 - 14,0 Area*Rooms Predictor Coef SE Coef T P Constant 862 34085 0,03 0,980 Area 162,78 39,23 4,15 0,000 Rooms -9248 14262 -0,65 0,518 Rooms**2 2161 1390 1,56 0,122 Area*Rooms -14,002 4,759 -2,94 0,004 S = 28783,4 R-Sq = 53,4% R-Sq(adj) = 52,2% När vi anpassar en modell med både kvadrattermen och interaktionstermen blir bara interaktionstermen signifikant. Den har ”tagit över” kvadrattermens roll.

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Area*Rooms The regression equation is Price = - 28051 + 109 Area + 11862 Rooms - 7,32 Area*Rooms Predictor Coef SE Coef T P Constant -28051 28707 -0,98 0,330 Area 108,55 18,06 6,01 0,000 Rooms 11862 4401 2,70 0,008 Area*Rooms -7,321 2,058 -3,56 0,001 S = 28922,9 R-Sq = 52,7% R-Sq(adj) = 51,7% Vid anpassning med interaktionstermen blir alla signifikanta och vi får en högre förklaringsgrad.

Multipel linjär regression Se upp med! Det kan vara lockande att ha så många variabler som möjligt i modellen för att förklara variansen i datamaterialet bra Dock kan detta leda till överanpassning, det vill säga att modellen blir ”för bra” anpassad till datamaterialet och att prediktionerna då blir felaktiga Hitta en balans mellan antalet variabler och förklaringsgrad