Regression Har långa högre inkomst?
Världsrekord på engelska milen
Metabolismen hos djur, Watt mot kilo
Regression Ex Finns det något samband mellan längd å ena sidan och kön och faderns längd å andra? En regressionsanalys kan visa på ev. samband
Resultat av regressionsanalys R-2, mått på hur bra hela modellen är Om R-2 är nära 1 är modellen bra, Nära noll dålig…
F-test
T-test:
Enkel linjär regression Enkel linjär regressionsmodell: Y= 0 + 1 x + Systematisk del Stokastisk (slumpmässig) del där Y är beroende variabel, den variabel som vi vill förklara eller prediktera. Den kallas även responsvariabel. x är oberoende variabel, även kallad förklaringsvariabel. är störningsterm (felterm), den stokastiska delen i modellen, dvs den enda källan till slumpmässighet i Y. 0 är linjens intercept, dvs där linjen skär y-axeln. 1 är linjens lutning.
Enkel linjär regression (forts.) X Y E[Y]= 0 + 1 x XiXi } } 1 = Slope 1 0 = Intercept YiYi { Error: i Regression Plot Den enkla linjära regressionsmodellen ansätter ett exakt linjärt samband mellan väntevärdet (eller genomsnittliga) värdet på Y, den beroende variabeln, och x, den obereonde variabeln: E[Y i ]= 0 + 1 x i Det faktiska observerade värdet på Y skiljer sig från väntevärdet med ett slumpmässigt fel: Y i = E[Y i ] + i = 0 + 1 x i + i
Antaganden X Y E[Y]= 0 + 1 X Antaganden Normalfördelande feltermer, centrerade på regressionslinjen och med lika stor varians. Relationen mellan x och Y är linjärt.
Antaganden om är normal fördelad Har väntevärde noll: E( ) = 0 Dess standardavvikelse är lika och oberoende av x. Värdet av ett är oberoende av andra.
Skattning av modellen Skattning av modellen (den linjära relationen) innebär att skatta värdet på interceptet och lutningen på regressionslinjen. Den skattade regressionsekvationen: Y = b 0 + b 1 x + e där b 0 är ett estimat (skattning) av interceptet, 0 b 1 är ett estimat av lutningen, 1 e är observerade feltermer – så kallade residualer, dvs skillnaden mellan den skattade regressionslinjen = b 0 + b 1 x och de n punkterna. kallas “y-tak”
Minsta-kvadratmetoden (Method of Least Squares) Minsta-kvadratmetoden är en speciell metod för att skatta parametrarna i modellen. Med minsta-kvadrat metroden väljs de skattade parametrarna så att summan av residualerna i kvadrat minimeras. X Y Data Y Residualer. Summan av kvadraterna av residualerna minimeras. X
Minsta-kvadratmetoden (forts.). { y x xixi
Total varians och variansen för feltermen Y X Vad du ser när du tittar på den totala variationen för Y, är variansen för Y. X Vad du ser när du tittar längs med regressionslinjen, är feltermsvariansen (error variance) dvs. Y
Hur ”bra” är modellen? Förklaringsgraden (coefficient of determination), r 2, är ett mått som beskriver styrkan på regressionssambandet, ett mått på hur väl regressionslinjen passar data.. { Y X { } Total Deviation Explained Deviation Unexplained Deviation Procent av totala variationen som förklaras av regressionen.
SST: mått på den totala variationen SSE: mått på variationen kring den skattade linjen.
Förklaringsgrad, r 2 Y X r 2 =0 SSE SST Y X r 2 =0.90 SSESSE SST SSR Y X r 2 =0.50 SSE SST SSR
Modellkontroll
Modell där längd förklaras med fars längd
Skatta …
Modell med bara kön Dummyvariable för kön
Resultat av regressionsanalys, bägge variablerna
Modell kontroll Spara prediktioner och residualer Plotta dessa Gör histogram för residualerna
Y-tak
Histogram över residualer:
Prediktion Punktprediktion Ett punktestimat av Y för ett visst värde på x, som fås av att sätta in värdet på x i den skattade regressionsekvationen. Prediktionsintervall För ett värde på Y givet ett visst värdet på x. Osäkerheten (variationen) i skattningen av regressionlinjen Variationen runt regressionslinjen Konfidensintervall För väntevärdet för Y givet ett visst värde på x, dvs för E[Y|x]. Osäkerheten (variationen) i skattningen av regressionlinjen
Konfidensintervall för E[Y|x] X Y X Y Regressionslinje Övre gräns för lutningen Nedre gräns för lutningen 1) Osäkerhet om lutningen X Y X Y Regressionslinje Övre gräns för interceptet Nedre gräns för interceptet 2) Osäkerhet om interceptet.
Konfidensintervall för E[Y|x] (forts.) X Y X Konfidensintervall för E[Y|x] Y Regressions- linje Konfidenintervall för E[Y|x]
Konfidensintervall för E[Y|x] (forts.)
Prediktionsintervall för Y 3) Variation runt linjen + osäkerhet om linjen, dvs 1) och 2). X Y Regression linje X Y X Prediktionsintervall för Y Y Regressions- linje Konfidensband för E[Y|x] Prediktionsband för Y
Prediktionsintervall för Y (forts.)