Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

Folkhälsan i Sverige: Årsrapport 2012
Icke-linjära modeller:
Kap 1 - Algebra och linjära modeller
Restauranger och service Våren 2005 T SHR: Leif Holmström Temo: Arne Modig, David Ahlin Datum:
Innehåll, huvudpresentation 4. Rangordning av ordningsstörningar (fråga 1) 5. Problem med nedskräpning (fråga 1a) 6. Problem med skadegörelse (fråga 1b)
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Det allmänna ekonomiska läget
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Kundundersökning mars 2010
Tillämpning av bolagsstyrningskoden vid årsstämmor 2005 och 2006.
Projektföljeforskning
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
Kundundersökning mars 2010 Operatör: Västtrafik Trafikslag: Tåg Sträcka: Göteborg - Nässjö.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Kapitel 5 Stickprovsteori Sid
UNIONEN - tillgänglighet under semestern 2014
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
Fastighetsbyrån Konjunkturundersökning Oktober 2012.
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion
Finländarnas uppfattningar om äldrevården Kirsi Markkanen Utvecklingschef Tehy rf.
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Kostnader för läkemedelsförmån Utveckling t.o.m. september 2014 Materialet: avser kostnader inklusive moms är ej åldersstandardiserat Lennart Tingvall:
Hittarps IK Kartläggningspresentation år 3.
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Ekonomirapporten. April 2014
TÄNK PÅ ETT HELTAL MELLAN 1-50
Kartläggning av Valberedningar tillsatta under Maj 2009.
Greppa Näringen Medlemsundersökning, kvartal 1. 1.
/hp Beräkning av kommunernas och samkommunernas utgifter år 2013 Övriga utgifter 0,81 md € Investeringar 4,70 md € Övr. verksamhetskostn. 0,79.
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Varumärket Luleå kommun
Resultat sammanhållen vård och omsorg om de mest sjuka äldre i Örebro län Västra länsdelen mätperiod 2014.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Kundundersökning mars 2010 Operatör: Blekingetrafiken Trafikslag: Tåg Sträcka: Kristianstad - Karlskrona.
Regional handlingsplan ”Det goda livet för sjuka äldre” RESULTAT i VG+Skaraborg.
Underlag för utvärdering av penningpolitiken –
Binomialsannolikheter ritas i ett stolpdiagram
UNIONEN – ALLMÄNHETEN OM EGET FÖRETAGANDE MINDRE MÄTNING I SYFTE ATT TITTA PÅ INTRESSET FÖR MENTORSKAP VID START AV FÖRETAG Kund: Unionen Kontakt: Åsa.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Hur bra är modellen som vi har anpassat?
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Normalfördelningen och centrala gränsvärdessatsen
Från att värdera ett enstaka fastighetsobjekt till att göra en fastighetsprisprognos avseende Mats Wilhelmsson KTH.
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
Diskret stokasticitet Projekt 2.3, Talltita
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Presentationens avskrift:

Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än x kan påverka y Fånga upp ceteris paribus samband mellan y och x.

Regressionsanalys Linjärt samband mellan y och x ”Error term” inkluderas för att fånga upp att andra saker än x påverkar y ”Zero conditional mean” antagandet möjliggör för oss att skatta ceteris paribus effekter.

Härledning av parametrar Utgår från ”Zero Conditional Mean” antagandet

Sample Regression Line y . y4 { û4 . y3 } û3 . y2 û2 { û1 . } y1 x1 x2 x3 x4 x

Väntevärdesriktigt om… populationsmodellen är linjär i parametrarna: y = b0 + b1x + u ett slumpmässigt urval av storleken n E(u|x) = 0 och således E(ui|xi) = 0 det finns en variation i xi

Tolkning Ekonomisk tolkning 0: det förväntade värdet av y om x är lika med noll 1: om x ökar med en enhet så ökar y med b enheter (mätt i samma enhet som y)

Precision Säkerheten hos modellen kan bl.a. mätas med hur stor spridningen i modellen är. Ju mindre spridning desto bättre modell. Spridningen mäts med variansen och standardavvikelsen. Antar homoskedasticitet Variansen hos a och b beror på modellens varians, antalet observationer samt medelvärdet och spridningen i den oberoende variabeln.

Precision Standardfel hos skattningen av y Standardfelet hos skattningarna b0 och b1

Modellen förklaringsgrad Determinationskoefficienten, ”goodness of fit”, R-square, R2 SST: Total variation i den beroende variabeln SSE: Variation som kan förklaras av modellen SSR: Oförklarad variation TSS=SSE+SSR R2=SSE/SST=1-SSR/SST

Modellen förklaringsgrad Determinationkoefficient (R2)

Justerat R-Squared R2 ökar alltid ju fler variabler vi har med I modellen Justerat R2 tar hänsyn till detta genom att ställa antalet oberoende variabler i relation till antalet observationer

Exempel

Hypotestest Kan vi dra några slutsatser angående populationen med hjälp av urvalet? Till vår hjälp använder vi både lägesmått (medelvärdet) och spridning (standardavvikelsen). Genom att skatta en teststorhet och jämför det mot ett kritiskt värde kan vi förkasta eller acceptera en hypotes. Om förkastas, den oberoende variabeln har en inverkan.

Hypotestest Modell: y = a + b1*x1 + b2*x2 Hypotes: H0: 1= 0 H1: 1 0 Vi antar att parametrarna har en normalfördelning med det förväntade värdet  och variansen 2b, dvs b1  N(1,2b1) Normalisera

Hypotestest Om, b1 är okänd använder vi oss av skattningen av b1 istället, vilket innebär att kvoten är t-fördelad istället för normalfördelad, dvs t är teststorheten tn-k-1 () är det kritiska värdet Förkasta H0 om t > tn-k ()

Hypotestest

Hypotestest Om teststorheten är större än det kritiska värdet  förkasta nollhypotesen. Kritiskt värde (dubbelsidigt test): t/2 (n-k-1) där  är signifikansnivån och (n-k-1) antalet frihetsgrader. Vanligtvis använder man sig av signifikansnivån 5% och 1%. Jmf. H0: Ej begått mord 5% chans att vi förkastar nollhypotesen att den åtalade ej begått mord, dvs vi dömer en oskyldig för mord.

Exempel

Funktionsform Inte troligt att vi har ett linjärt samband mellan y och x i den meningen att y ökar med lika mycket oberoende hur mycket av x vi har initialt. I tillämpade studier finner vi oftast att variablerna är transformerade, tex att alla kontinuerliga variabler är logaritmerade. Varför? Vi vill att effekten skall uttryckas som en procentuell effekt.

Sammanfattning av olika funktionsformer ln(y) = b0 + b1ln(x) + u y ökar med b1 procent om x ökar med 1 procent ln(y) = b0 + b1x + u y ökar med (100b1) procent om x ökar med 1 enhet y = b0 + b1ln(x) + u y ökar med (b1/100) enheter om x ökar med 1 procent.

Exempel – ln(pris)

Dummyvariabel En binär variabel som indikerar om en viss enskild observation (objekt) har en viss egenskap eller ej. Om koefficientskattningen är signifikant skild från noll så innebär det att regressionsmodellen skiftar Går att kombinera dummyvariabeln med kontinuerliga variabler.

Dummy variabel som oberoende variabel Antag en enkel modell där vi har en kontinuerlig variabel (x) och en dummy variabel (d) y = b0 + d0d + b1x + u Kan tolkas som ett skift i konstanten Om d = 0,  y = b0 + b1x + u Om d = 1, y = (b0 + d0) + b1x + u

{ } Exempel om d0 > 0 d0 b0 y = (b0 + d0) + b1x y = b0 + b1x y lutning = b1 { d0 d = 0 } y = b0 + b1x b0 x

Interaktion med dummyvariabler Man kan också kombinera en dummy variabel, d, med en kontinuerlig variabel, x y = b0 + d1d + b1x + d2d*x + u Om d = 0,  y = b0 + b1x + u Om d = 1,  y = (b0 + d1) + (b1+ d2) x + u Tolkas som om lutningen ändras

Exempel om d0 > 0 and d1 < 0 y y = b0 + b1x d = 0 d = 1 y = (b0 + d0) + (b1 + d1) x x

Exempel

Residualanalys

Varför bekymra sig för Heteroskedasticitet? OLS ger fortfarande väntevärdesriktiga och konsistenta skattningar även om vi inte antar homoskedasticitet MEN, standardavvikelsen avseende våra estimat är icke väntevärdesriktiga om vi har heteroskedasticitet Om standardavvikelsen är icke väntevärdesriktig klan vi EJ genomföra våra hypotesprövningar.

Breusch-Pagan Test Ett test som avser att undersöka om heteroskedasticitet förekommer eller ej. Feltermen är okänd men vi har residualerna från OLS regressionen. Om vi kör regressionen residualerna i kvadrat mot alla oberoende variabler så kan vi nyttja R2 och göra ett F test F-värdet anger om regressionsmodellen som helhet är statistiskt signifikant eller ej. Ett ”högt” F-värde innebär att de oberoende variablerna kan förklara variationen i residualerna, vilket vi inte vill. F = [R2/k]/[(1 – R2)/(n – k – 1)], med fördelningen Fk, n – k – 1

Exempel

Exempel - test

Vad förklarar fastighetspriset över tiden? Jämviktsvillkor Hyresvärdet (HV) motsvarar de samlade kostnaderna för bostadskapitalet P*=huspriser i real termer (1-r)r=räntan på lånat och eget kapital efter skatt pe=prisappreciering =inflation Underhåll och drift

Kan skrivas som Där I=inkomster och D=demografiska faktorer speglar efterfrågesidan och H=bostadsstocken speglar utbudssidan. Empiriskt kan vi lösa det genom att skatta följande funktion:

Tidsserieanalys

Tidsseriedata vs. Tvärsnittsdata Tidsseriedata har en tidsordning till skillnad mot tvärsnittsdata. Det är av stor vikt att inte ändra ordningen. Vi måste ha en modell som tillåter att historien kan påverka framtiden, men inte tvärtom. Eftersom vi har data som är ordnande i tiden måste vi lägga till antaganden om hur feltermen (residualen) får bete sig över tiden.

DATA Tvärsnittsdata Tidsseriedata Autokorrelation Icke-stationär Heteroskedasticitet PROBLEM AR(1)-Test Breusch-Pagan Test TEST

Exempel på tidsseriedata modeller En statisk modell där variablerna påverkar y direkt: yt = b0 + b1zt + ut En laggad (dynamisk) modell tillåter att en eller flera variabler påverka y med en lag: yt = a0 + d0zt + d1zt-1 + d2zt-2 + ut

Statisk Modell FPIt = b0 + b1BNPIt + ut OBS! INDEX Tolkning: Procentenhet

Tolkning FPI och BNP är index med 1967=100 Ekonomisk tolkning – om BNP gick upp med en procentenhet föregående år så kommer FPI att gå upp med 0.69 procentenheter. Statistisk tolkning – modellens förklaringsgrad, genomsnittligt fel, statistisk signifikans av enskilda parametrar.

Statisk Modell Ln(FPIt) = b0 + b1l(BNPIt) + ut Tolkning: Procent

Dynamisk modell Ln(FPIt )= b0 + b1Ln(BNPt-1) + ut Tolkning: Procent

Antaganden Linjär i parametrarna Det förväntade värdet av feltermen betingat på den oberoende variabeln skall vara lika med noll.  X strikt exogena Ej perfekt linjärt samband mellan oberoende variabler Homoskedasticitet Ingen autokorrelation Normalfördelning NYTT!

OLS skattningarnas varians Homoskedasticitet Var(ut|X) = Var(ut) = s2 Variansen är oberoende av alla x samt konstant över tiden Ingen autokorrelation: Corr(ut,us| X)=0 for t  s

Autokorrelation Om antagandet inte är uppfyllt: om ut-1>0 kommer feltermen i nästa period också att vara positiv i genomsnitt.

Varför problem? Effektivitet – det finns andra metoder än OLS som ger mer effektiva skattningar, dvs med lägre varians. Dock är OLS parameterskattningar väntevärdesriktiga. Hypotesprövning – variansen är inte väntevärdesriktig vilket innebär att hypotesprövning och konfidensintervall inte längre är tillförlitliga.

Hur testa för autokorrelation? AR(1)-test AR(1) = Autoregressive modell där den beroende variabeln är en funktion av den beroende variabeln laggad 1 år. yt = ryt-1 + et , t = 1, 2,… Test av AR(1) autokorrelation Vi vill testa nollhypotesen r = 0 i ut = rut-1 + et, t =2,…, n Om ej förkasta H0 (lågt t-värde)  ingen autokorrelation

Exempel – Dynamisk modell Autoregressive modell Residualen idag är en funktion av residualen igår. Om signifikant parameter-autokorrelation.

Exempel – Dynamisk modell Under viss perioder är fastighetspriserna betydligt lägre än vad BNP predicerar och ibland högre. Verkar dock finnas ett mönster, vilket inte är bra.

Orsaker? Tröghet – tidsseriedata, av psykologiska skäl har historiska händelser en stor effekt på dagens händelser så att ett positivt fel i föregående period påverkar aktiviteten idag. Långsiktigheten – tidsseriedata, en slumpmässig chock på en marknad kan ha långsiktiga effekter, tex krig. Specifikationsfel – val av ingående variabler, funktionsform.

Fel funktionsform

Vad göra? Fler förklarande variabler (t.ex. i vårt fall en dummyvariabel som indikerar bankkrisen mellan 1991-96). Andra funktionsformer Log-log Nivå-log Log-nivå Första-differensen – förändringsdata istället för nivådata

Trendade tidsserier Ekonomiska tidsserier har ofta en trend. Bara för att två serier är trendade tillsammans kan vi inte anta att det finns ett kausalt samband. Oftast är serierna trendade för att det finns någon icke-observerbar faktor som är gemensam, men som inte är inkluderad i modellen. Även om dessa faktorer är icke-observerade kan vi kontrollera för dem genom att direkt inkludera en trend i vår modell.

Inkludera trend i modellen En möjlighet är en linjär trend yt = a0 + a1t + et, t = 1, 2, … En annan är en exponentiell trend log(yt) = a0 + a1t + et, t = 1, 2, … Eller en kvadratisk trend yt = a0 + a1t + a2t2 + et, t = 1, 2, …

Exempel – FPI

Exempel – FPI – kvadratisk trend

Exempel – FPI – exponentiell trend

Varför problem? Uppfyller inte antagande nr. 2 Det förväntade värdet av feltermen betingat av våra oberoende variabler är inte lika med noll. X är inte exogent given. DVS våra parameterskattningar avseende intercept (konstant) och lutningskoefficient är inte väntevärdesriktig. Kan ej göra vare sig ekonomisk eller statistisk tolkning av skattningarna. DVS vi kan inte tolka i termer av ceteris paribus (allt annat lika).

Exempel BNP och FPI

Autokorrelation? – JA!

Stationära serier En trendad serie kallas för icke-stationär eftersom medelvärdet förändras med tiden. En enkel regression med yt som beroende variabel och xt som oberoende variabel och båda är icke-stationära innebär att t-värdena kommer ofta att vara signifikanta även om det inte finns ett samband. Vanligtvis också ett högt R2. Kallas för “spurious regression problem”

Transformera serien Om det inte räcker med att inkludera en trend i specifikationen av modellen utan vi fortfarande har en icke-stationär serie måste vi transformera serien. Oftast räcker det med att använda sig av första-differensen för att få en stationär serie.

Prognos och Utvärdering av Prognos

Prognosmodell Tidsseriedatamodeller används vanligt som prognosmodell vid sidan om förklaringsmodeller. Viktigt att vi därför utvärderar dess prognos-egenskaper. Problem med att endast analysera koefficienter, t-värden och modellens förklaringsgrad då dessa bygger på ”in-sample” prognoser (skattningar). En mer realistisk situation är att utvärdera modellen utifrån dess ”out-of-sample” prognoser.

Prognosmodell med utvärdering Anta att vi har data från 1968-2006. Antag att vi vill förklara prisutvecklingen på småhus med hjälp av BNP-utvecklingen (laggad 1 år). Genom att använda hela datamängden kan vi göra prognos avseende 2007. I och för sig får vi en skattad pris för hela perioden men det är en ”in-sample” prognos. Genom att beräkna ett antal prognosmodeller med olika datamängd så kan vi göra ”out-of-sample” prognoser.

Utvärderingsmodell 1968 2002 2007 Utvärdering Istället för en prognosmodell estimerar jag 5 prognosmodeller som kommer att ge mig en prognos avseende 2002-2006 som kan användas för utvärdering och 2007 som är en prognos. 2002-2006 kan användas för utvärdering då vi både har en prognos och ett utfall.

Jämförelse För att kunna jämföra min prognosmodell med något så tar jag fram ett antal jämförelseprognoser. Det kan tex vara andra prognosmodeller med andra variabler, med annan laggning eller funktionsform. Det kan också utgöras av betydligt enklare prognoser som tex Samma utveckling nästa år som i år Glidande medelvärde Autoregressive modell tex AR(1)

DPrist = a + DBNPt-1 + et

Prognos 2007 Bra/dålig prognos?

Ettårsprognoser Prognosen för 2005 bygger på en modell med endast 1968-2004. Prognosen för 2006 bygger på en modell med endast 1968-2005 Prognosen gör 2007 bygger på hela datamängden Prognosfel har vi för 2 år (2005-2006).

Mått på genomsnittligt prognosfel Det genomsnittliga prognosfelet uppgår till 25 procentenheter per år.

Jämfört med andra prognoser… Vår mycket enkla modell är sämre än de båda naiva modellerna. Varför? saknar viktiga variabler priser i nominella termer, troligtvis trendade serier även om vi använder förändringsdata.

Långa prognoser Betydligt svårare Om vi vill göra en längre prognos än ett år måste vi lägga in antaganden om BNP-utvecklingen (eftersom modellen är laggad med bara ett år). Naturligtvis kan man själv göra en prognosmodell avseende BNP och andra makroekonomiska variabler eller Så kan man använda de prognoser som tex Konjunkturinstitutet tar fram. Tolkningen blir då betingat av KIs prognos.

Lång Prognos KIs prognos avseende BNP och KPI för åren 2005-2007

PROJEKTARBETE 2 Skatta en prognosmodell Utvärdering av prognosmodell Data avseende Sverige 1975-2007 Du skall göra en prognos avseende 2009-10 med den modell som du anser lämpligast. Grupper om två-tre.