Sambandsmodeller, 10 p = 15 hp

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Talföljder formler och summor
Kap 1 - Algebra och linjära modeller
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Regressions- och tidserieanalys, 5 p
Hur bra är modellen som vi har anpassat?
Regressions- och tidsserieanalys
Hela Sverige ska leva Totalrapport. Regeringens bidrag har medverkat till kunskapsförmedling?
Projektföljeforskning
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL10 732G81 Linköpings universitet.
732G22 Grunder i statistisk metodik
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Kommunpussel Din uppgift är att sortera de organisatoriska delar på nästa sida på ett sådant sätt att det överensstämmer med hur din kommun är organiserad.
Statistikens grunder, 15p dagtid
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
V E R S I O N N R 2. 0 T A V E L I D É E R I M I L J Ö.
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
| Trycksår Kommun/Områdes-skillnader (inklusive könsdimensionen) Dennis Nordvall Statistiker/Datamanager,
INFÖR NATIONELLA PROVET
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Antag att följande värden hos kapitalet har gällt:
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
(2) Avvikelse från std. kostnad (5) Andel inv 65+ med insats (4) Andel 80+ i befolkningen (1) Kronor/ invånare (65+) (3) Kronor/ brukare (6) Ytterfall.
Hittarps IK Kartläggningspresentation år 3.
Vad ingår kursen? i korta drag
Beräkna en ekvation (metod 1)
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
TÄNK PÅ ETT HELTAL MELLAN 1-50
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
2. Enkel regressionsanalys
732G81 Statistik för internationella civilekonomer
Resultat sammanhållen vård och omsorg om de mest sjuka äldre i Örebro län Västra länsdelen mätperiod 2014.
Förelasning 6 Hypotesprövning
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Källa: FHI, Folkhälsodatabas
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Binomialsannolikheter ritas i ett stolpdiagram
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
Kvadratsummeuppdelning/Variansanalys
Presskonferens 7 december 2010 Arbetsmarknadsutsikterna Hösten2010 Tord Strannefors.
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Presentationens avskrift:

Sambandsmodeller, 10 p = 15 hp Välkomna till kursen Sambandsmodeller, 10 p = 15 hp Kursansvarig är Olle Eriksson Första läsperioden har Lotta Hallberg Regressionsanalys lohal@ida.liu.se Den andra läsperioden har Olle Eriksson Variansanalys oleri@ida.liu.se

Examination En skriftlig tentamen 7.5hp 16 inlämningsuppgifter (tillfällen) 7.5hp Kurslitteratur Applied Linear Statistical Models av Kutner,Nachtsheim, Neter, Li ISBN: 007-112221-4 McGraw-Hill

Enkel linjär regression: hyran kan förklaras av lägenhetsstorlek

Kvadratisk regression

Varför behövs regressionsanalys? Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex storlek på lägenheten): Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion av den förväntade hyran eller av hyran för en speciell lägenhet

Hur mycket betalar man (i genomsnitt) i hyra om man har en lägenhet på 50 kvadratmeter? ca 3747.6 SEK

Varför behövs regressionsanalys? Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex. storlek på lägenheten): Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion av den förväntade hyran eller av hyran för en speciell lägenhet Vi kan beskriva datamaterialet och beskriva och dra slutsatser om samband mellan variabler. Därmed kan vi (i vissa fall) öka förståelsen av hur världen omkring oss ser ut.

För varje ytterligare kvadratmeter i lägenhetsyta får man betala ca 60 kronor i månaden mer. 10 kvadratmeter mer = 605 SEK

Y kallas responsvariabel x är förklarande variabel Vi vill undersöka om x förklarar y, inte tvärtom

Enkel linjär regression: Till datamaterialet kan vi anpassa en rät linje: som är en skattning av det verkliga sambandet (det som vi skulle kunna observera om vi visste hyran och ytan på alla lägenheter som finns): E (Y ) = μy|x = 0 + 1· x eller Y = μy|x + e = 0 + 1· x + e

E (Y ) = μy|x = 0 + 1· x eller Y = μy|x + e = 0 + 1· x + e μy|x... det förväntade värdet på y om värdet på den förklarande variabeln är givet. 0... interceptet (intercept). Det förväntade värdet på Y om x=0. 1... lutningen (slope). Anger förändringen i Y om x ökar med en enhet. e ... felterm (error term). Den del av variationen i datamaterialet som inte går att beskriva med regressionslinjen.

Hur anpassar man en rät linje till ett datamaterial Hur anpassar man en rät linje till ett datamaterial? Man väljer linjen som har det minsta avståndet till alla observationer.

Detta görs genom ‘Minsta-kvadrat-metoden’: Summan av alla kvadrerade avstånd ska bli så liten som möjligt.

Skattning av parametrarna med Minsta kvadratmetoden Y- 0 - 1· x = e Välj så att minimeras. Härledning på tavlan

Minsta-kvadrat-skattningen för enkel linjär regression

Det går enklare att beräkna b0 och b1 om vi skriver om formlerna för SSxx och SSxy:

Σ 1294 93469 6271637 88196 Kv-meter Hyra xi*yi xi*xi 61 4490 61*4490= 273890 3721 50 3211 160550 2500 32 3265 104480 1024 74 4750 351500 5476 61 4063 247843 3721 70 5471 382870 4900 52 4120 214240 2704 64 5432 347648 4096 65 5020 326300 4225 38 3512 133456 1444 37 2456 90872 1369 37 2560 94720 1369 50 3179 158950 2500 117 7110 831870 13689 86 7019 603634 7396 50 3199 159950 2500 73 4953 361569 5329 77 5623 432971 5929 52 3919 203788 2704 56 3898 218288 3136 92 6219 572148 8464 Σ 1294 93469 6271637 88196 3721 2500 1024 5476 4900 2704 4096 4225 1444 1369 13689 7396 5329 5929 3136 8464

Då får vi:

Alltså: Skattningen av regressionslinjen är För varje ytterligare kvadratmeter i lägenhetsyta kommer man i genomsnitt betala 60.53 kronor mer i hyra. För en lägenhet med 0 kvadratmeter kommer man att betala 720.92 kronor i hyra (??!?)

Statistisk slutledning (Inference) i regressionsmodellen Signifikanstest för parametrarna b0 och b1. t.ex. ökar hyran verkligen med storleken på lägenheten, eller skulle man kunna sätta b1=0? Konfidensintervall för parametrarna b0 och b1. Konfidensintervall för väntevärdet av y (givet x). Prediktionsintervall för en individuell prognos av y (givet x). För att kunna göra signifikanstest och för att kunna beräkna konfidensintervall måste vi göra vissa antaganden.

Antagande i regressionsmodellen Y = 0 + 1· x + e Feltermen e har väntevärde 0 och varians s2. (Variansen är konstant över hela datamaterialet) Feltermen e är normalfördelad. Feltermen e är statistisk oberoende. Varje värde för e är oberoende av alla andra värden av e. Hur man undersöker om feltermen verkligen uppfyller de här kraven kommer vi att se senare (residualanalys). Feltermens varians s2 måste skattas.

Hur bestämmer man , skattningen för , variansen av feltermen? I ett vanligt stickprov bestäms s som stickprovsvariansen: I regressionssammanhang gör vi på ett liknande sätt, men vi måste ta hänsyn till den del av variationen i datamaterialet som kan förklaras av x. ‘Residual’ = e

Residualerna Kv-meter Hyra b0+b1*xi yi-(b0+b1xi) 61 4490 720.92+60.53*61= 4413.25 76.75 50 3211 3747.42 -536.42 32 3265 2657.88 607.12 74 4750 5200.14 -450.14 61 4063 4413.25 -350.25 70 5471 4958.02 512.98 52 4120 3868.48 251.52 64 5432 4594.84 837.16 65 5020 4655.37 364.63 38 3512 3021.06 490.94 37 2456 2960.53 -504.53 37 2560 2960.53 -400.53 50 3179 3747.42 -568.42 117 7110 7802.93 -692.42 86 7019 5926.5 1092.5 50 3199 3747.42 -548.42 73 4953 5139.61 -186.61 77 5623 5381.73 241.27 52 3919 3868.48 50.52 56 3898 4110.6 -212.6 92 6219 6289.68 -70.68 Residualerna

Skattning av se betecknas ofta bara med s.

Signifikanstest för parametrarna b0 och b1 Nollhypotesen: H0: b1=0 Mothypotesen: H1: b1≠0 t-test: Skattning Nollhypotes Standardavvikelse för skattningen av b1 (standard error) t-fördelad med n-2 frihetsgrader

Hur beräknar man , skattningen för ? i vårt fall:

Signifikanstest för b1 : Jämför med t-fördelningen med 19 frihetsgrader. → högt signifikant RITA PÅ TAVLAN Slutsats: Lutningen i regressionsmodellen är signifikant skild från noll. Ytan på en lägenhet har betydelse för hur hög hyran är. Ju större lägenhet desto högre hyra (positivt samband). Signifikanstest för interceptet se sidan 48 i boken.

Konfidensintervall för lutningen b1: Med hjälp av skattningarna vi har tagit fram, kan vi även beräkna ett konfidensintervall för b1. Med 95% säkerhet ligger b1 i intervallet 48.58 – 72.48.

Ett datorprogram, som MINITAB eller SAS kan beräkna en regressionsanalys åt oss. Där får vi ut t.ex.: Regressionlinjen Parameterskattningar b0 och b1 Signifikanstest för b0 och b1 Skattningen s (spridningen i residualerna)

Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = 721 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 720.9 370.2 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P Regression 1 31002923 31002923 112.26 0.000 Residual Error 19 5247087 276162 Total 20 36250010 Regressionslinjen t-tester och deras p-värden Parameterskattningar och deras standardavvikelser Residualspridningen Konfidensintervall för parametrarna b0 och b1 måste man dock beräkna själv.

Punktskattningar och punktprognoser För ett givet värde på x (säg xh) kan man skatta det genomsnittliga värdet på Y dvs E[Y] (Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?) prediktera värdet på Y för en ny observation (Hur mycket kommer just den här lägenheten på 60 kvadratmeter att kosta i hyra?) Både punktskattningen och punktprognosen beräknas som

Punktskattningar och punktprognoser är naturligtvis osäkra Punktskattningar och punktprognoser är naturligtvis osäkra. Därför ska man helst ange dem tillsammans med ett intervall: Punktskattningen med ett konfidensintervall och punktprognosen med ett prediktionsintervall där

För ett xh som ligger nära får vi ett litet värde på och därför även ett smalare konfidens- eller predikitonsintervall.

Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?

Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt? Med 95% säkerhet kommer hyran att ligga mellan 4112 och 4593.3 kronor i månaden.

Hur mycket kommer jag att betala om jag hyr just den här lägenheten på 60 kvadratmeter? Med 95% säkerhet kommer hyran för just den här typen av lägenhet ligga mellan 3226.8 och 5478.63 kronor i månaden.

Även punktskattningar och punktprognoser kan beräknas med hjälp av MINITAB The regression equation is Hyra = 721 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 720.9 370.2 1.95 0.066 Kv-meter 60.533 5.713 10.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8% .... Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 4353 115 ( 4112, 4594) ( 3227, 5479) Values of Predictors for New Observations New Obs Kv-meter 1 60.0