Hur bra är modellen som vi har anpassat?

Slides:



Advertisements
Liknande presentationer
78 respondenter. 2 [1] Hur har det varit hemma sedan du var här sist?
Advertisements

Novus Allmänheten om regional identitet i Dalarna (Del A) November Peter Blid Helena Björck Ida af Robson 2064.
Icke-linjära modeller:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Klusterurval, forts..
Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Regressions- och tidsserieanalys
Leif Håkansson’s Square Dancer Rotation
FL10 732G81 Linköpings universitet.
Kapitel 5 Stickprovsteori Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Dette har skjett i tidigere episode:
Antag att följande värden hos kapitalet har gällt:
Beräkna en ekvation (metod 1)
Det handlar om multiplikation
Skattningens medelfel
Chitvå-test Regression forts.
2. Enkel regressionsanalys
Diskreta, deterministiska system Projekt 1.2; Vildkatt
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Multipel regressionsanalys
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.
Binomialsannolikheter ritas i ett stolpdiagram
732G71 Statistik B Institution: IDA, avd. för statistik
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Simulering Introduktion Exempel: Antag att någon kastar tärning
Fråga 1: Om ledamöter i ALF- kommittén har haft personlig fördel avs kommitténs bedömning av deras ansökningar? Fråga 2: Om kvinnliga & manliga ledamöter.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
Sambandsmodeller, 10 p = 15 hp
y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε
Icke-linjära modeller:
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
Kvadratsummeuppdelning/Variansanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Statistik för AT-läkare Robert Hahn, Södertälje sjukhus.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Två/flera populationer och en kvalitativ variabel (”The first model” i Moore)
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Vetenskapsprojekt, rubrik
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Relation mellan variabler – samvariation, korrelation, regression
Presentationens avskrift:

Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt p-värden för de individuella variablerna förklaringsgraden, R2 F-test, signifikanstest för hela regressionsmodellen Residualanalys, för att avgöra om regressionsantagandena är uppfyllda

Visuell bedömning:

Hur bra är modellen som vi har anpassat? The regression equation is Hyra = 721 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 720.9 370.2 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P Regression 1 31002923 31002923 112.26 0.000 Residual Error 19 5247087 276162 Total 20 36250010 enskilda p-värden R2 och justerad R2 F-test och dess p-värde Residualanalys kan också göras i MINITAB

Varför behöver vi så många olika mått på hur bra modellen är? Om vi bara har en förklarande variabel, så spelar det inte så stor roll vilket mått vi använder: p-värden, R2 och F-test är i princip utbytbara. Residualanalys måste dock alltid genomföras. I de flesta fall kommer vi dock att ha modeller med mer än bara en förklarande variabel. Då är det viktigt att titta på de olika kriterierna var för sig, eftersom de ger olika information.

Vi har redan genomfört t-testet för de enskilda parametrarna (intercept och lutning) för att se om de är signifikant skilda från noll. Hur beräknas då R2 och F-testet? Båda är baserade på en jämförelse av hur mycket av variationen i responsvariabeln som kan förklaras genom modellen och hur mycket av variationen inte kan förklaras

Vi har redan räknat med ett mått för den oförklarade variationen: Residualkvadratsumman, som också ofta betecknas med SSE (Sum of Squared Errors). Ett mått på den totala variationen är också ganska enkelt att ta fram: variationen i responsvariabeln, SSyy, som i regressionssammanhang ofta kallas för SST (Totalkvadratsumman).

För att göra kvadratsummeuppdelningen komplett kan vi beräkna SSR (Sum of Squares Regression), den förklarade variationen. SSR = SST - SSE eller SST = SSR + SSE Den totala variationen är summan av den (av modellen) förklarade variationen och den återstående variationen. SSR är den del av variationen som inte är slump, men kan förklaras av regressionssambandet.

Förklaringsgrad och korrelationskoefficient Förklaringsgraden betecknas med R2 Ju högre förklaringsgrad, desto bättre lyckas vår skattade modell förklara variationen i data  Modellen kan anses vara bra. I vårt exempel blev R2 = 85.5%, dvs. att 85.5% av all variation i data kan förklaras med hjälp av modellen.

Utvikning: Kom ihåg korrelationskoefficienten som mäter det linjära sambandet mellan x och y. I motsats till regressionsmodellen finns det i korrelationskoefficienten ingen kausalitet: regressionsmodellen: x påverkar y, men inte tvärtom korrelationskoefficienten: x och y hänger ihop

Korrelationskoefficienten ligger alltid mellan –1 och 1 Korrelationskoefficienten ligger alltid mellan –1 och 1. Om den är = – 1 eller = 1 säger man att det råder ett perfekt linjärt samband mellan y och x. Om r = 0 finns inget linjärt samband mellan y och x. (Det kan dock finnas andra samband, t.ex. kvadratiska) I vårt fall blir korrelationskoefficienten r=0.925 Observera att r2=(0.925)2=0.8556R2 Men detta gäller bara i fallet med en förklaringsvariabel, inte om vi inkluderar fler oberoende variabler i modellen.

Vi kan pröva hypotesen: H0: b1=0 mot H1: b1≠0 med ett F-test:

MSE har vi träffat på förut, men då kallade vi den för . På MINITAB-utskriften kan vi hitta både MSE och . Om vi bara har en förklarande variabel, så är SSR/1=MSR. I vårt fall: Ur tabellen  signifikant

F är ett mått på hur stor den förklarade variationen är jämfört med den oförklarade. Om F är stor då har vi en bra modell som kan förklara mycket och lämnar lite oförklarat. Om vi bara har en förklarande variabel i modellen, så är F = t2 där t kommer från t-testet, när man testar om .

SSR MSR F-test MSE SSE SST The regression equation is Hyra = 721 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 720.9 370.2 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P Regression 1 31002923 31002923 112.26 0.000 Residual Error 19 5247087 276162 Total 20 36250010 SSR MSR F-test MSE SSE SST

Residualanalys För att överhuvudtaget kunna ta resultaten av regressionsanalysen på allvar, måste vi undersöka om regressionsantagandena är uppfyllda. Har residualerna en konstant varians? Är residualerna normalfördelade? Är residualerna oberoende? Är alla samband linjära?

Har residualerna en konstant varians? Plotta residualerna mot anpassade värden (residuals vs fits) Är residualerna normalfördelade? Histogram av residualerna Normalfördelningsdiagram av residualerna (Normal plot...) Är residualerna oberoende? Plotta residualerna i observationsordning (residuals vs order). Är alla samband linjära? Plotta residualerna mot enskilda förklarande variabler (Residuals vs the variables)