2. Enkel regressionsanalys

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Innehåll, huvudpresentation 4. Rangordning av ordningsstörningar (fråga 1) 5. Problem med nedskräpning (fråga 1a) 6. Problem med skadegörelse (fråga 1b)
Point Estimation Dan Hedlin
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Numeriska beräkningar i Naturvetenskap och Teknik
Tillämpning av bolagsstyrningskoden vid årsstämmor 2005 och 2006.
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
V E R S I O N N R 2. 0 T A V E L I D É E R I M I L J Ö.
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion
(2) Avvikelse från std. kostnad (5) Andel inv 65+ med insats (4) Andel 80+ i befolkningen (1) Kronor/ invånare (65+) (3) Kronor/ brukare (6) Ytterfall.
Vad ingår kursen? i korta drag
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Ekonomirapporten. April 2014
TÄNK PÅ ETT HELTAL MELLAN 1-50
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
2 Agenda 1. Börja arbeta med Excel Hantera arbetsböcker 3. Formler 4. Formatera 5. Diagram 6. Skriva ut 7. Referenser mellan kalkylblad 8. Arbeta.
Centrala Gränsvärdessatsen:
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Binomialsannolikheter ritas i ett stolpdiagram
Egenskaper för punktskattning
Simulering Introduktion Exempel: Antag att någon kastar tärning
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
3. Multipel regression 2005 © Rune Höglund Multipel regression.
Normalfördelningen och centrala gränsvärdessatsen
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
732G22 Grunder i statistisk metodik
Kapitel 2 Nationalekonomiska verktyg. 1 Modeller och data En modell –är en teoretisk referensram baserad på förenklande antaganden –som hjälper en att.
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Grundläggande statistik, ht 09, AN
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1. Kontinuerliga variabler
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Icke-linjära modeller:
Relation mellan variabler – samvariation, korrelation, regression
Presentationens avskrift:

2. Enkel regressionsanalys Regressionsanalysens grunder 2. Enkel regressionsanalys 2005 © Rune Höglund Enkel regression

Vad är regressionsanalys? Regressionsanalys behandlar studiet av en variabels beroende, den beroende variabeln, av en eller flera andra variabler, de förklarande variablerna, i syfte att skatta och/eller förutsäga populationsmedelvärdet eller medelvärdet för den beroende variabeln givet vissa värden på de förklarande variablerna (eller att mäta den marginella effekten på den beroende variabeln av förändringar i de förklarande variablerna). 2005 © Rune Höglund Enkel regression

Vad är regressionsanalys? Exempel: Skatta privata konsumtionens beroende av reell disponibel inkomst. Skatta hur efterfrågan påverkas av prisförändringar (elasticitet). Skatta sambandet mellan reklam och försäljning. 2005 © Rune Höglund Enkel regression

Begrepp, termer och datatyper Deterministiska – statistiska samband Statistiska – kausala samband Terminologi: Beroende variabel, Yi (eller Yt) Förklarande variabel, Xi (eller Xt) Datatyper: Tidsseriedata Tvärsnittsdata Poolat data 2005 © Rune Höglund Enkel regression

Populationens regressionskurva och funktion Populationens regressionskurva beskriver sambandet mellan de förklarande variablerna och det förväntade värdet för den beroende variabeln, E(Y | X = Xi) Om sambandet är linjärt kan vi skriva populationens regressionsfunktion, E(Y | X = Xi) = b0 + b1 Xi Detta är ekvationen för en rät linje 2005 © Rune Höglund Enkel regression

Populationens regressionskurva och funktion 2005 © Rune Höglund Enkel regression

Linjär i variablerna/parametrarna X men ej: X2, X½, X·Z Linjär i parametrarna: b1 men ej: Med linjär regression avses en modell som är linjär i parametrarna. 2005 © Rune Höglund Enkel regression

Den linjära regressionsmodellen Stokastisk specifikation av populationens regressionsfunktion Det faktiska värdet på Y avviker i regel från det förväntade. Detta kan uttryckas med hjälp av en stokastisk felterm: ei = Yi – E(Y | Xi) eller Yi = E(Y | Xi) + ei Den linjära regressionsmodellen kan då skrivas som: Yi = b0 + b1 Xi + ei där E(ei | Xi) = 0 2005 © Rune Höglund Enkel regression

Stokastisk felterm Varför behövs den stokastiska feltermen, ei? Vag teori Otillgängliga data Centrala kontra perifera variabler Inre slumpmässighet i det mänskliga beteendet Dåliga proxyvariabler Sparsamhetsprincipen Fel funktionell form 2005 © Rune Höglund Enkel regression

Stickprovets regressionsfunktion Den skattade modellen (utifrån ett stickprov) kan skrivas som, eller där är en residualterm (residual), dvs en skattning av ei. 2005 © Rune Höglund Enkel regression

Skattningsproblemet Vi önskar skatta en regressionslinje som på ”bästa” sätt beskriver vårt datamaterial. Tänkbara kriterier för ”bästa” sätt: Minsta kvadratmetoden innebär att vi minimerar som är en funktion av estimatorerna och . 2005 © Rune Höglund Enkel regression

Regressionslinjens egenskaper Linjen går genom punkten . Medelvärdet av alla skattade Y-värden = medelvärdet för alla observerade Y. Medelvärdet för (och summan av) alla residualer är noll. Residualerna är okorrelerade med de skattade Y-värdena. Residualerna är okorrelerade med Xi. 2005 © Rune Höglund Enkel regression

Antaganden bakom minsta-kvadratmetoden ia) Linjär regressionsmodell ib) Regressionsmodellen är korrekt specificerad, dvs ingen specifikationsbias eller fel i modellen Y = b + b (1/ X ) i 1 2 i Y = a + a X i 1 2 i Förändring i lönenivå, % Arbetslöshet, % 2005 © Rune Höglund Enkel regression

Antaganden bakom minsta-kvadratmetoden iia) X-värdena är fixa vid upprepade stickprov iib) variation i X-värdena iiia) Medelvärdet är noll för ei, E(ei) = 0, 2005 © Rune Höglund Enkel regression

iiib) Homoskedasticitet, lika varians för alla ei V(ei) = s2, 2005 © Rune Höglund Enkel regression

Antaganden bakom minsta-kvadratmetoden iiic) Ingen (auto)korrelation mellan ei:na 2005 © Rune Höglund Enkel regression

Antaganden bakom minsta-kvadratmetoden iiid) Ofta antar vi att feltermen är normal- fördelad, ei ~ N(0,s2) Anm. ii) & iiia) | E(Xiei) = Xi E(ei) = 0, dvs ingen kovarians mellan ei och Xi Den konstanta variansen s2 i iiib) är en okänd parameter | tre okända parametrar i modellen Antagandena i iii) kan uttryckas i Y i stället för e Ant. ia)-iiic) definerar den klassiska regres- sionsmodellen. iiid) viktig för inferensen 2005 © Rune Höglund Enkel regression

Standardfel och BLUE Gauss-Markovs sats: Då ia) – iiic) gäller är minsta kvadrat (OLS) skattningarna de bästa (effektivaste) linjära väntervärdesriktiga skattningarna (BLUE) för b0 resp. b1 OLS-skattningarna är linjära eftersom de är linjära funktioner av en stokastisk variabel (Y) 2005 © Rune Höglund Enkel regression

Medelfel och BLUE Standardavvikelse och kovarians för minsta-kvadratskattningarna 2005 © Rune Höglund Enkel regression

Standardfel och BLUE enligt iiid) har vi Yi ~ N(b0 + b1Xi , s2) och enligt iiic) är Yi och Yj oberoende | och OBS! Detta gäller asymptotiskt även om Yi inte normalfördelad Standardavvikelsen s skattas med 2005 © Rune Höglund Enkel regression

Standardfel och BLUE s brukar även kallas regressionens medelfel Substituerar vi s för s i uttrycken ovan för vi skattade standardavvikelser för skattningarna vilka kallas medelfelen för skattningarna. På samma sätt får en skattning för kovariansen mellan Korrelationskoefficienten skattas med 2005 © Rune Höglund Enkel regression

Konfidensintervall Konfidensintervall för regressions- koefficienterna och feltermens varians då skattningarna är normalfördelade standardiserar vi och får standardavvikelsen (sd) för skattningen innehåller s, vilken är okänd och ersätts med skattningen s så att vi får medelfelet för parameterskattningen (s.e) 2005 © Rune Höglund Enkel regression

Konfidensintervall Ett 100 · (1–a) procents konfidensintervall för bi då gäller att Ett 100 · (1–a) procents konfidensintervall för bi ges av, För variansen gäller 2005 © Rune Höglund Enkel regression

Konfidensintervall vilket alltså ger konfidensintervallet för s2 med konfidensgraden 1 - a 2005 © Rune Höglund Enkel regression

Test testvariabeln är Då vi testar på signifikansnivån a har vi att H0 förkastas om för ett tvåsidigt test och för ett ensidigt om 2005 © Rune Höglund Enkel regression

OBS! Ofta testas H0: bi = 0, H1: bi 0 t-kvoten i datorutskrifter 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation Anpassningsgraden residualerna anger hur bra regressionslinjen anpassas till observationerna| liten spridning |’små’ residualer | ’bra’ anpassning, eller en stor del av variationen i Y förklaras med regressions-linjen stor spridning |’stora’ residualer | ’dålig’ anpassning, eller endast en liten del av variationen i Y förklaras med regressionslinjen och en stor del blir oförklarad residualernas värde (storlek) beror på mätenhet residualvariansen är 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation residualkvadratsumman 3(Yi – Yi)2 utnyttjas för att mäta variationen i residualerna variationen i Y mäts med kvadratsumman 3(Yi – Y )2 korsproduktsumman är 0, så vi får eller 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation totala = residual (fel) + förklarade (regr.) kvadratsumman kvadratsumman kvadratsumman TSS = ESS + RSS Vi dividerar med TSS | 1 = ESS/TSS + RSS/TSS Determinationskoefficienten, R2, definieras som R2 = den del av variationen i Y som förklaras av Y:s regression på X. 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation R2 = 0 då Yi = Y, dvs b1 = 0 R2 = 1 då Yi = Yi, dvs observetionerna ligger på den räta linjen Då vi, som här, har endast en oberoende variabel X har vi då att 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation Uppdelningen av kvadratsumman (och variansen) ovan kan sammanfattas i en variansanalystabell 2005 © Rune Höglund Enkel regression

R2, variansanalys och korrelation Testar H0: b1 = 0; H1: b1 0 H0 förkastas om F > F1-a(1,n-2) F- och t-testen för b1 är ekvivalenta 2005 © Rune Höglund Enkel regression

Konfidensintervall E(Y|Xi), Yi Yi ~ N(b0 + b1 Xi, s2) . Prediktion av medelvärdet E(Y | X = Xi) E(Y | X = Xi) skattas med Prediktion av ett individuellt Y-värde Y för ett givet X predikteras på samma sätt som ovan Konfidensintervallen beräknas därefter på vanligt sätt. 2005 © Rune Höglund Enkel regression

Konfidensintervall 2005 © Rune Höglund Enkel regression

Rapportering av resultat Utvärdering av regressionsanalysens resultat Är tecken på de skattade koefficienterna rimliga? Är koefficienterna statistiskt signifikant ¹ 0? Är andelen förklarad variation tillfredsställande? Är feltermen normalfördelad? 2005 © Rune Höglund Enkel regression

Normalfördelningstest Jarque-Beras (JB) normalfördelningstest Teststatistika: där S är snedheten och K är toppigheten för residualerna (toppigheten är 3 för en normal-fördelad variabel) JB är asymptotiskt c2-fördelad med 2 frihetsgr. Förkasta nollhypotesen om JB > kritiskt värde. 2005 © Rune Höglund Enkel regression

Funktionell form Modell Linjär Log-linjär Ekvation Lutning Elasticitet Log-lin, Lin-log, Reciprok 2005 © Rune Höglund Enkel regression

Tolkning av SPSS-utskrift 2005 © Rune Höglund Enkel regression

Tolkning av SPSS-utskrift 2005 © Rune Höglund Enkel regression

Tolkning av SPSS-utskrift 2005 © Rune Höglund Enkel regression

Maximum-likelihoodskattningar Maximum likelihoodskattningen för en parameter q definieras som det värde q, vilket med största sannolikhet skulle generera de observerade stickprovsobservationerna Y1, Y2, ..., Yn. Är stickprovet slumpmässigt kan observationerna betraktas som observationer på oberoende och identiskt fördelade s.v. Yi , med snlsfördelningen p(Yi). Maximum-likelihoodskattningen maximerar 2005 © Rune Höglund Enkel regression

Maximum-likelihoodskattningar För vår regr.modell har vi Yi ~N(b0 + b1Xi, s2 ) Täthetsfunktionen för Yi är Likelihoodfunktionen 2005 © Rune Höglund Enkel regression

Maximum-likelihoodskattningar Vi maximerar L( ), m.a.p. b0, b1, s2. Blir enklare om vi logaritmerar L( ) 2005 © Rune Höglund Enkel regression

Maximum-likelihoodskattningar Vi deriverar log-likelihoodfunktionen partiellt m.a.p. parametrarna och sätter derivatorna = 0 | 2005 © Rune Höglund Enkel regression