Multipel regression och att bygga (fungerande) modeller

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Vetenskaplig studie av det alkoholpreventiva
Från Fanta till Fleece Lokal pedagogisk planering Biologi åk 5
Vattenkemiska data Workshop, maj 2014 Claudia von Brömssen, SLU.
Claudia von Brömssen SLU. Uppdrag från Naturvårdsverket: • Få fram ett standardset av statistiska analyser för dataserier inom Naturvårdsverkets och länens.
FL3 732G81 Linköpings universitet.
FL10 732G81 Linköpings universitet.
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Statsvetenskap 3, statsvetenskapliga metoder
Dette har skjett i tidigere episode:
Validering av Cox-modellen
Workshop i statistik för medicinska bibliotekarier!
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Kvantitativ strategi viktiga begrepp 1
2. Enkel regressionsanalys
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Ekonometrisk analys av fastighetsmarknader
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Skattning av trendkurvor/trendytor och förändringar över tiden Claudia von Brömssen SLU.
Binomialsannolikheter ritas i ett stolpdiagram
Multipel linjär regressionsanalys
Hur bra är modellen som vi har anpassat?
3. Multipel regression 2005 © Rune Höglund Multipel regression.
Från att värdera ett enstaka fastighetsobjekt till att göra en fastighetsprisprognos avseende Mats Wilhelmsson KTH.
Grundläggande statistik ht 09, AN
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Regressions- och tidsserieanalys
732G22 Grunder i statistisk metodik
Kapitel 2 Nationalekonomiska verktyg. 1 Modeller och data En modell –är en teoretisk referensram baserad på förenklande antaganden –som hjälper en att.
Analysförmåga Jämföra: Likheter och skillnader, för- och nackdelar
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Tidsserieanalys Exempel:
Lägesmått. Lägesmått Vad är lägesmått? Sammanfatta en mängd data Exempelvis hur mycket veckopengar får elever som går i åk7… En klass består av ca.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Sju sätt att visa data Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete.
Icke-linjära modeller:
Trender och fluktuationer
Data och att presentera data
Fördelning av data och index
Relation mellan variabler – samvariation, korrelation, regression
Y 5.4 Tabeller och diagram Frekvens och relativ frekvens
Presentationens avskrift:

Multipel regression och att bygga (fungerande) modeller Föreläsning kvantitativ metod C-kurs Ekonomisk Historia, HT 2017

Multipel regression Skiljer sig från bivariat regression – finns fler än en förklarande variabel (fler än en x-variabel) Exempel: BNP (Y) = a (intercept [constant]) + export (x1) + utbildningsgrad (x2) + antal patent (x3) + industrialiseringsgrad (x4) + e (residual) Svårt att göra grafiska analyser med alla variabler samtidigt – finns för många dimensioner

Specifika saker med multipla regressioner Determinationskoefficienten (R2) ökar, men det finns en gräns även om varje enskild variabel har högt R2 mot Y Anledningen är att de förklarande variablerna (x) i modellen korrelerar med varandra – tar bort en del av förklaringskraften Man kan inte lägga till variabler bara för att öka R2 i modellen!

Antalet variabler i multipla regressioner Ökat antal variabler i modellen riskerar att minska deras signifikanser Detta på grund av att de kan vara korrelerade sinsemellan – kallas för multikollinaritet och kan behövas korrigeras (bör åtminstone undersökas) Vag tumregel: ha inte för få variabler, men inte heller för många!

Hur bygger man modeller? Hur väljer man variabler? Teori ska styra vilka variabler som ska inkluderas. Vad är logiken? Hur tänker vi oss att x-variablerna ska påverka Y? Fundera även på källmaterialets kvalitet - håller serierna för statistiska test? Behövs för mycket manipulation, såsom interpolering och extrapolering? Fundera på R2 och även på Adjusted R2 när man jämför olika modeller

Hur bygger man modeller? Hur väljer man variabler? Fundera alltid på om någon avgörande variabel har utelämnats – vad bör finnas med i modellen Fundera på om det finns förklarande variabler som mäter samma sak – större risk för multikollininaritet Fundera på om det finns naturlig trend i variablerna. Kan behöva hanteras – som t.ex. att logaritmera eller att avtrenda

Mäta nivå eller förändring?

Botticellis regressioner Vad säger Botticellis regressionstabeller? Vilka variabler är signifikanta? Vad kan man läsa ut av R2? Vilka slutsatser kan vi dra utifrån resultaten?

Övning 1 Gör regression på försäljningsvolym (se excel-fil) Gör regression på nysparande (se excel-fil) Testa runt med variablerna och regressionerna! Ofta behövs en del ”trial and error”! I minitab: statregressionfit regression modelfyll i variablerna

Övning 2 Repetition: dummy-variabler sätts som 0 eller 1 Gör regression på oljeförbrukning (se excel-fil) med isolering som dummy I minitab: statregressionfit regression modelfyll i variablerna

Stepwise regression Kan vara användbar när man har många olika variabler – skattar automatiskt ”bästa modellen” I minitab: StatRegressionFit regression model fyll i variablerna i modellen, välj stepwisevälj method stepwise, låt alfa-värdena vara som de ärok, kör regressionen som vanligt

”Bästa” möjliga statistiska modeller På tentan – den modell med flest signifikanta variabler Dock, bästa är oftast eller alltid den modell som ”funkar för det vi vill undersöka” (rätt valda variabler, teoretiskt underbyggt, bra data) Samt, att modellen inte lider av några sjukdomar

Vilka sjukdomar kan drabba våra modeller? Multikollinaritet – våra förklarande variabler korrelerar med varandra Autokorrelation – serien korrelerar med sig själv – har naturlig trend Heteroskedasticitet – variansen är inte lika för samtliga observationer, vilket gör att skattningen av våra hypotesprövningar kan visa felaktiga resultat

Hur upptäcker man problem i sina modeller? Multikollinaritet – mäter våra förklarande variabler samma sak? Kolla om de korrelerar med varandra Autokorrelation – verkar serierna väldigt linjära rent grafiskt? Gör också trendanalys. Samt, hur vet vi att vi har linjära samband? (Determinationskoefficienten) Heteroskedasticitet – undersök om vi har outliers, extrema värden i vår data – kolla scatterplot

Olika test man kan göra och mått man kan behöva Multikollinaritet – Variation Inflation Factor (VIF) Autokorrelation – Durbin-Watson statistic Heteroskedasticitet – White Heteroskedasticity Test Normalfördelning (av residualerna i modellen) – Jarque-Berra

Hur botar man sina statistiska sjukdomar? Multikollinaritet – ta bort nån förklarande variabel som korrelerar med övriga – OM det inte är så att den måste vara kvar av teoretiska skäl Autokorrelation – transformera serierna – avtrenda, logaritmera, testa förändring istället för sekulär trend Heteroskedasticitet – ta bort outliers, alternativt minska antalet förklarande variabler

Olika typer av regressioner Ordinary least squares (OLS) är den vanligaste typen Används för att förklara linjära samband Förutsätter bland annat vi inte har autokorrelation

Bonusinfo – andra typer av regressioner Generalized Least Squares (GLS) Partial Least Squares (PLS) Autoregressiva modeller (AR)

Bonusinfo – andra typer av statistiska test än regressioner ANOVA – en test av varians (fungerar ganska mycket som regression dock…) Granger – används för att testa kausalitet Data Envelopment Analysis (DEA) – undersöker effektivitet genom att vikta input och output

Inför den praktiska tentan – saker ni bör kunna Presentera data i tabeller och grafer – inklusive scatter plots Spridningsmått: medelvärde, median, typvärde Varianssmått: varians, standardavvikelse, covariance [variationskoefficient] Korrelation mellan olika variabler (korrelationskoefficienten) Multipel regression/stepwise regression (inklusive tolkning, betydelse av R2, signifikans, tolkning av skattade koefficienter)

Den praktiska tentan - falufilen Riktig data på förmögenhet och tillgångar hos 239 individer i Falun (1871) Bekanta er med filen – testa lite olika korrelationer och regressionsmodeller Slutligen: kör bästa modellen på: antal barn, metall, pengar, finansiella tillgångar, fastigheter, dödskostnader, skuld