Ekonometrisk analys av fastighetsmarknader LTH, 25 september 2007 Ekonometrisk analys av fastighetsmarknader (tillämpad regressionsanalys)
Mål Efter dagens övningar ska du kunna Bygga, skatta och tolka hedoniska prismodeller för småhus i Excel. Tolka och läsa olika ekonometriska analyser, med betoning på fastighetsekonomiska tillämpningar.
Vad är ekonometri (econometrics)? Ekonometri handlar om samband mellan olika ekonomiska variabler. Några citat: “Econometrics is concerned with the systematic study of economic phenomena using observed data.”
Vad är ekonometri (econometrics)? Ekonometri handlar om samband mellan olika ekonomiska variabler. Några citat: “Econometrics is concerned with the systematic study of economic phenomena using observed data.” “Econometrics is concerned with the empirical determination of economic laws.”
Vad är ekonometri (econometrics)? Ekonometri handlar om samband mellan olika ekonomiska variabler. Några citat: “Econometrics is concerned with the systematic study of economic phenomena using observed data.” “Econometrics is concerned with the empirical determination of economic laws.” “Econometrics is based upon the development of statistical methods for estimating economic relationships, testing economic theories, and evaluating and implementing government and business policy.
Matematik Statistik Ekonomi Ekonometri En ekonometriker ska i allmänhet vara en kompetent matematiker och statistiker med en i grund och botten ekonomisk skolning. De tre ingredienserna i ekonometri är - ekonomisk teori - ekonomiska data och - statistiska metoder (främst multipel regressionsanalys).
Kategorier Ekonometri Teoretisk Tillämpad Klassisk Bayesiansk Klassisk
Linjär regressionsanalys Beskrivning och analys av linjära samband mellan en beroende variabel (y) och en eller flera förklarande (oberoende) variabler (x1, x2,…,xk): y = f (x1, x2,…,xk) Enkel linjär regressionsanalys: en förklarande variabel, t ex Pris = b0 + b1Boyta + u Multipel linjär regressionsanalys: flera förklarande variabler, t ex Pris = b0 + b1Boyta + b2Standardpoäng + u
Linjär regressionsanalys Vi vill bygga och skatta en modell som kan förklara verkligheten – ”what’s going on out there?” Vilka variabler ska ingå i modellen? Hur ska det matematiska sambandet mellan den oberoende variabeln och de förklarande variablerna se ut? Vi är intresserade av Kasualitet: Beror BNP-ökningen på ökat byggande, eller ökat byggande på ökad BNP? Jämför korrelation: skilj på statistiska samband och kasuala samband. Vad påverkar vad? Har vi tillgång till bra data (observationer)?
Varför ekonometri i fastighetsekonomi?
Fastighetsvärdering/taxering
Makroanalyser y =-1,8+0,8x+u Y=förändring Pris X=förändring BNP
Marknadsanalyser log(Bostadsyta) = b0 + b1log(Pris) +b1log(Inkomst) + b1log(Familjestorlek) + u Exempel: - Priselasticitet: -0,10 - Inkomstelasticitet: 0,05. - Ökar familjestorleken med 1 person så ökar efterfrågad kvantitet med drygt 5 procent.
Finansiella analyser y =-0,11+0,41x+u Y=avkastning fastigheter X=avkastning alla aktier
y x1, x2,…,xk Beroende variabel Oberoende variabler Undersökningsvariabel Förklaringsvariabler Responsvariabel Prediktorer Resultatvariabler Bakgrundsvariabler
y x1, x2,…,xk Dependent variable Independent variables Explained variable Explanatory variables Response variable Control variables Predicted variable Predicted Variables Regressand Regressors
Klassisk ekonometrisk metod Framställning av teori eller hypotes. Specificering av den matematiska modellen för teorin. Specificering av den ekonometriska modellen. Erhålla data. Estimering (skattning) av parametrarna som ingår i den ekonometriska modellen. Hypotesprövningar. Prediktioner Använd modellen för policysyften eller kontroller.
Illustration av de åtta stegen Vi använder oss av ett klassiskt makroekonomiskt exempel: Keynes konsumptionsteori och MPC (Marginal propensity to consume; den marginella konsumtionsbenägenheten). Steg 1: Framställning av teori eller hypotes: ”Hushåll ökar sin konsumtion när den disponibla inkomsten stiger, dock inte med hela inkomstökningen.” (Jmf ”Priset på bostadsrätter ökar med y% när den disponibla inkomsten stiger med x%”)
Illustration av de åtta stegen Steg 2: Specificering av den matematiska modellen för Keynes teori. : Låt C beteckna konsumtion och I disponibel inkomst. En matematisk modell för teorin kan då vara: C = 0 + 1I 0 och 1 är modellens parametrar: intercept- respektive lutningskoefficienterna. 0 anger hur stor konsumtionen är då inkomsten är 0 kr. 1 mäter den marginella konsumtionsbenägenheten.
Illustration av de åtta stegen Steg 2 fortsättning: C = 0 + 1I Linjär konsumtionsfunktion. K är en funktion av I, därför säger vi att C är den beroende variabeln, medan I är den oberoende (förklarande) variabeln. Antagande om kausalitet (orsakssamband) mellan C och I: kausaliteten går in en riktning, dvs I antas orsaka C och inte tvärtom.
Illustration av de åtta stegen Steg 3: Specificering av den ekonometriska modellen. Notera följande i den matematiska modellen i steg 2: C = 0 + 1I antar att det finns ett exakt eller deterministiskt samband mellan konsumtion och inkomst. Men relationer eller samband mellan ekonomiska variabler är vanligtvis inexakta: kan vi förvänta oss att alla datapunkter (C, I) ligger på en rät linje om vi samlar in data från säg 100 hushåll? Nej! Varför? Andra variabler påverkar konsumtion (ålder, storlek på hushållet, religion, etc etc).
Illustration av de åtta stegen Steg 3 fortsättning: Specificering av den ekonometriska modellen. Den ekonometriska modellen tar hänsyn till att ekonomisk teori inte kan exakt kan förklara hushållens beteenden. För att tillåta inexakta relationer eller samband mellan ekonomiska variabler specificerar vi följande ekonometriska modell: C = 0 + 1I + u, där u är feltermen (error term, disturbance). Feltermen u representerar alla de variabler som påverkar konsumtionen, men som inte ingår i modellen explicit: våra ”unobserved”.
Illustration av de åtta stegen Steg 3 fortsättning: Specificering av den ekonometriska modellen. C = 0 + 1I + u Exempel på en enkel linjär regressionsmodell. Den ekonometriska modellen för konsumtion består av två komponenter: en del som beror linjärt på inkomsten I och en del som är slumpmässig.
Illustration av de åtta stegen Steg 4: Erhålla data. Data är observerbara värden på en variabel.
Illustration av de åtta stegen Steg 4 fortsättning: Erhålla data. Tvärsnittsdata består av urval av individer, hushåll, företag, regioner, städer, länder etc tagna vid en given tidpunkt (ignorerar små skillnader i timing). Exempel: huspriser 2006. BNP för alla länder 2006. Även för givna veckor, månader, kvartal,… Tidsseriedata består av observationer på en eller flera variabler över tiden. Exempel: årliga huspriser 1980 till 2006. Svensk BNP för perioden 1980 till 2006. KPI. FPI. Vårt konsumtionsexempel. Datafrekvens: dagar, veckor, månader, kvartal, år,…
Illustration av de åtta stegen Steg 4 fortsättning: Erhålla data. Vissa data har både tvärsnitts- och tidsseriedimension. Exempel: Paneldata (longitudinell data) består av observationer på en eller flera variabler på samma objekt/individer över tiden. Exempel: - BNP för alla världens länder för perioden 1970 till 2004. - Alla ni och era inkomster fr o m i år och 30 år framåt. - Repeated Sales Price Index (vad är objektet?)
Illustration av de åtta stegen Steg 5: Estimering av den ekonometriska modellen. Med vår data kan vi estimera (skatta) parametrarna i konsumtionsfunktionen. De numeriska värdena vi erhåller ger konsumtionsfunktionen empiriskt innehåll. Vi estimerar parametrarna med den statistiska teknik som kallas regressionsanalys. Vi erhåller följande skattningar av 0 och 1: –268,07 och 0,72. Sålunda har vi följande estimerade (skattade) konsumtionsfunktion: Ibland b0 resp b1
Illustration av de åtta stegen Steg 5: Estimering av den ekonometriska modellen. Tolkning: För perioden 1984 – 2006 är lutningskoefficienten (dvs MPC) 0,72. Med andra ord, en ökning av den reala inkomsten med 1 dollar ledde, i genomsnitt, till en ökning av real konsumtion med 72 cents.
Illustration av de åtta stegen Steg 6: Hypotesprövning Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga urval bedömer trovärdigheten i hypoteser – antaganden – angående populationen. Vi vill med hypotesprövning fastställa hur mycket bevis för att en viss hypotes är sann som finns i vårt urval. I vårt fall är nollhypotesen att MPC < 1. - Kan vi förkasta den eller inte? Begrepp: nollhypotes, alternativhypotes, teststatistika, kritisk region.
Illustration av de åtta stegen Steg 7: Prediktion Givet att vår modell inte har motbevisat vår teori eller hypotes, kan vi använda den för att göra prognoser (forecasts, predictions). Med hjälp av kända eller förväntade framtida värde(n) på den oberoende (förklarande) variabeln, kan vi erhålla prediktion av den beroende variabeln. Antag att vi vill göra en prediktion av den genomsnittliga konsumtionen för år 2008. Antag att vi förväntar oss att inkomsten (GDP) för 2008 kommer att bli 8050. Vi erhåller då prediktionen
Illustration av de åtta stegen Steg 8: Använd modellen för policysyften eller kontroller Antag att regeringen tror att om konsumtionen uppgår till 5600 (miljarder dollar) kommer arbetslösheten hamna på 4,5%. Hur stor måste inkomsten vara för att konsumtionen ska uppnå 5600? Med finans- (och ev. penningpolitiska medel) kan regeringen manipulera kontrollvariablen I för att uppnå den önskvärda nivån på målvariabeln C.
Statistikprogram ett måste Excel SPSS Eviews Stata Matlab R SAS
Övningar på att tolka skattade regressionslinjer y = b0 + b1* x1 Modell Beroende variabel Oberoende variabel Tolkning av b1 Level-level y x1 y = b1 x Log-log log(y) log(x1) %y = b1 %x Log-level %y = (100b1) x
Övningar på att tolka skattade regressionslinjer pris = b0 + b1*Boyta = 10 + 50 000*Boyta Tolkning: b1 anger hur mycket pris ändras i genomsnitt när boyta ökar med en kvm. ln(pris) = b0 + b1*ln(Boyta) = 10 + 0,80*Boyta Tolkning: elasticiteter (här priselasticitet m.a.p. Boyta). b1 anger hur många procent pris ändras i genomsnitt när boyta ökar med 1 procent. (1 procents ökning av boytan leder till att pris ökar med i genomsnitt 0.80%)
Övningar på att tolka skattade regressionslinjer ln(pris) = b0 + b1*rum = 10 + 0.50*rum Tolkning: semi-elasticiteter b1 anger hur många procent pris ändras i genomsnitt när rum ökar med 1 enhet. (För varje rum så ökar pris ökar med i genomsnitt 50%)
Övningar på att tolka skattade regressionslinjer pris = b0 + b1*Boyta + b2*standardpoäng = 10 + 40 000*Boyta + 10 000*standardpoäng Tolkning: b1 anger hur mycket pris ändras i genomsnitt när boyta ökar med en kvm, och standardpoäng är konstant (ceteris paribus tolkning). b2…
Övningar på att tolka skattade regressionslinjer (US-English) log(price) = 10 + 0.65*log(sqrft) – 0.066*bedrooms + 0.15*baths The price elasticity with respect to square footage is 0.65. Holding bedrooms and baths fixed, a 1 percentage increase in square footage is predicted to increase housing price (price) by about 0.65% (on average). Given size (sqrft) and number of bedrooms, one more bathroom (baths) is predicted to increase housing price (price) by 15% (on average). Varför negativt tecken på koefficienten för bedrooms?
Övningar på att tolka skattade regressionslinjer med dummyvariabler (binär variabel) log(pris) = b0 + b1*log(Boyta) + b2*strandtomt = 10 + 0.70*log(Boyta) + 0.65* strandtomt strandtomt är en dummyvariabel som är lika med 1 om huset är byggt på en strandtomt, annars 0. Hus på strandtomter är i genomsnitt 65% dyrare än andra hus, allt annat lika.
Sammanfattning 1 Vi vill försöka fastställa kasualt samband mellan variabler. Vad har variabel x för kasual effekt på variabeln y? Att ”fånga in” verkligheten i en modell. Teoretiska modellen (enkel linjär regression): y = 0 + 1*x + u y: beroende variabel, undersökningsvariabel x: oberoende variabel, förklarande variabel u: felterm, slumpterm: fångar in de variabler som ej är observerade. 0 och 1: regressionskoefficienter, okända parametrar som ska skattas. 0: intercept med y-axeln: värdet på y när x = 0. Ofta av lite intresse. 1: anger lutningen på regressionslinjen. · Man kan säga att ett viktigt mål med regressionsanalys är att erhålla skattningar av de okända parametrarna (-parametrarna).
Sammanfattning 1 Den multipla linjära regressionsmodellen k oberoende variabler och ett intercept => finns k + 1 stycken (okända) parametrar att skatt (vilka?). Oavsett hur många oberoende variabler vi har inkluderat i vår modell kommer det alltid att finnas faktorer som vi inte kan inkludera. Än en gång är det feltermen u som samlar in alla ”icke observerade” faktorer. Pris = f(x1, x2, x3,…). · Problem med multikollinearitet. · Ceteris paribus tolkning.
Några datorövningar Gör övningar i Excel! Var kreativ, prova, experimentera! Rent rates.xls Huspriser Norra Ängby 1.xls Huspriser_1.xls Norra och Södra Ängby.xls Huspriser_2.xls Glöm ej deskriptiv statistik, korrelation etc.
Del II: Statistisk inferensteori & hypotesprövning Statistisk slutledning eller statistisk inferens är konsten att göra intelligenta gissningar med hjälp av slumpmässiga urval. Med ett slumpmässigt urval (exv. fastighets-försäljningar ett visst år) kan vi skatta okända parametrar – till exempel medelvärden och varianser – för populationen. Dessutom kan vi pröva hypoteser – antaganden – om populationen.
Statistikteori Population - parametrar Urval - skattningar Statistiska slutsatser Skatta parametrar Testa hypoteser Vi vill med hjälp av vårt urval dra slutsatser om populationen! Samtliga fastigheter Urval Sålda fastigheter
Varför urval (stickprov eller sampel)? För dyrt och/eller omöjligt med totalundersökning. Omöjligt fall: ”Sample” = blodprov. Småhusförsäljningar: Hur skulle en ”Drömsituation” för fastställande av taxeringsvärden se ut?
Skatta parametrar: Från population till skattningar Punktskattningar av medelvärdet (exempel på lägesmått) och variansen 2 (exempel på spridningsmått) i en population. Populations- parameter Skattningsfunktion Medelvärde Varians 2 Om tidsbrist: gå till wordfil: LTH 2007! Våra Regressionskoefficienter…:
Skattningarna kallas stickprovsmedelvärde (aritmetiskt medelvärde) och stickprovsvarians. Ofta används som spridningsmått standardavvikelsen s: I vårt enkla linjära regressionsexempel ovan, vilka är - populationsparametrarna? - skattningsfunktionerna?
Stickprovets regressionslinje (vid enkel linjär regression) Med hjälp av minsta-kvadratmetoden (Ordinary Least Square) kan man anpassa en rät linje, en regressionslinje, till ett datamaterial bestående av n stycken observationspar (xi, yi). Dvs, för att skatta de okända regressionsparametrarna 0 och 1 använder vi oss av OLS (MK-metoden). Hur? Välj estimatorerna (skattningsfunktionerna) så att summan av de kvadrerade avstånden från den anpassade räta linjen (regressionslinjen) och de observerade talparen (xi, yi) minimeras.
Stickprovets regressionslinje (vid enkel linjär regression) Regressionslinjen skriver vi som För en enskild observation har vi det anpassade värdet (i = 1,…,n). Residualen ei för observation i, är skillnaden mellan det faktiska yi och dess anpassade värde Det finns n stycken residualer.
Stickprovets regressionslinje (vid enkel linjär regression) Välj så att summan av de kvadrerade residualerna Blir så liten som möjligt. Lösningen till minimeringsproblemet ger oss skattningsfunktionerna
Stickprovets regressionslinje Ovanstående formler gäller om vi har en oberoende variabel (dvs enkel linjär regressionsanalys). Om multipel linjär regressionsanalys, då är det matrisalgebra som gäller (mer om multipel regressionsanalys senare). Under vissa förutsättningar är OLS-skattningarna väntevärdesriktiga och effektivaste av alla möjliga skattningar. Nu när vi vet principen för hur vi finner våra OLS-skattningar fortsätter vi med statistisk inferens och speciellt hypotesprövningar. SE WORDFIL LTH2007!
Två Fallgropar Heteroskedasticitet - ej konstant varians Multikollinearitet - hög inbördes korrelation mellan olika oberoende variabler