Presentation laddar. Vänta.

Presentation laddar. Vänta.

Regression Har långa högre inkomst?. Världsrekord på engelska milen.

Liknande presentationer


En presentation över ämnet: "Regression Har långa högre inkomst?. Världsrekord på engelska milen."— Presentationens avskrift:

1 Regression Har långa högre inkomst?

2 Världsrekord på engelska milen

3 Metabolismen hos djur, Watt mot kilo

4 Regression Ex Finns det något samband mellan längd å ena sidan och kön och faderns längd å andra? En regressionsanalys kan visa på ev. samband

5

6 Resultat av regressionsanalys R-2, mått på hur bra hela modellen är Om R-2 är nära 1 är modellen bra, Nära noll dålig…

7 F-test

8 T-test:

9 Enkel linjär regression Enkel linjär regressionsmodell: Y=  0 +  1 x +  Systematisk del Stokastisk (slumpmässig) del där Y är beroende variabel, den variabel som vi vill förklara eller prediktera. Den kallas även responsvariabel. x är oberoende variabel, även kallad förklaringsvariabel.  är störningsterm (felterm), den stokastiska delen i modellen, dvs den enda källan till slumpmässighet i Y.  0 är linjens intercept, dvs där linjen skär y-axeln.  1 är linjens lutning.

10 Enkel linjär regression (forts.) X Y E[Y]=  0 +  1 x XiXi } }  1 = Slope 1  0 = Intercept YiYi { Error:  i Regression Plot Den enkla linjära regressionsmodellen ansätter ett exakt linjärt samband mellan väntevärdet (eller genomsnittliga) värdet på Y, den beroende variabeln, och x, den obereonde variabeln: E[Y i ]=  0 +  1 x i Det faktiska observerade värdet på Y skiljer sig från väntevärdet med ett slumpmässigt fel: Y i = E[Y i ] +  i =  0 +  1 x i +  i

11 Antaganden X Y E[Y]=  0 +  1 X Antaganden Normalfördelande feltermer, centrerade på regressionslinjen och med lika stor varians. Relationen mellan x och Y är linjärt.

12 Antaganden om är normal fördelad Har väntevärde noll: E( ) = 0 Dess standardavvikelse är lika och oberoende av x. Värdet av ett är oberoende av andra.

13 Skattning av modellen Skattning av modellen (den linjära relationen) innebär att skatta värdet på interceptet och lutningen på regressionslinjen. Den skattade regressionsekvationen: Y = b 0 + b 1 x + e där b 0 är ett estimat (skattning) av interceptet,  0 b 1 är ett estimat av lutningen,  1 e är observerade feltermer – så kallade residualer, dvs skillnaden mellan den skattade regressionslinjen = b 0 + b 1 x och de n punkterna. kallas “y-tak”

14 Minsta-kvadratmetoden (Method of Least Squares) Minsta-kvadratmetoden är en speciell metod för att skatta parametrarna i modellen. Med minsta-kvadrat metroden väljs de skattade parametrarna så att summan av residualerna i kvadrat minimeras. X Y Data Y Residualer. Summan av kvadraterna av residualerna minimeras. X

15 Minsta-kvadratmetoden (forts.). { y x xixi

16 Total varians och variansen för feltermen Y X Vad du ser när du tittar på den totala variationen för Y, är variansen för Y. X Vad du ser när du tittar längs med regressionslinjen, är feltermsvariansen (error variance) dvs. Y

17 Hur ”bra” är modellen? Förklaringsgraden (coefficient of determination), r 2, är ett mått som beskriver styrkan på regressionssambandet, ett mått på hur väl regressionslinjen passar data.. { Y X { } Total Deviation Explained Deviation Unexplained Deviation Procent av totala variationen som förklaras av regressionen.

18 SST: mått på den totala variationen SSE: mått på variationen kring den skattade linjen.

19 Förklaringsgrad, r 2 Y X r 2 =0 SSE SST Y X r 2 =0.90 SSESSE SST SSR Y X r 2 =0.50 SSE SST SSR

20 Modellkontroll

21 Modell där längd förklaras med fars längd

22 Skatta …

23

24 Modell med bara kön Dummyvariable för kön

25

26 Resultat av regressionsanalys, bägge variablerna

27

28

29

30 Modell kontroll Spara prediktioner och residualer Plotta dessa Gör histogram för residualerna

31 Y-tak

32 Histogram över residualer:

33 Prediktion Punktprediktion Ett punktestimat av Y för ett visst värde på x, som fås av att sätta in värdet på x i den skattade regressionsekvationen. Prediktionsintervall För ett värde på Y givet ett visst värdet på x. Osäkerheten (variationen) i skattningen av regressionlinjen Variationen runt regressionslinjen Konfidensintervall För väntevärdet för Y givet ett visst värde på x, dvs för E[Y|x]. Osäkerheten (variationen) i skattningen av regressionlinjen

34 Konfidensintervall för E[Y|x] X Y X Y Regressionslinje Övre gräns för lutningen Nedre gräns för lutningen 1) Osäkerhet om lutningen X Y X Y Regressionslinje Övre gräns för interceptet Nedre gräns för interceptet 2) Osäkerhet om interceptet.

35 Konfidensintervall för E[Y|x] (forts.) X Y X Konfidensintervall för E[Y|x] Y Regressions- linje Konfidenintervall för E[Y|x]

36 Konfidensintervall för E[Y|x] (forts.)

37 Prediktionsintervall för Y 3) Variation runt linjen + osäkerhet om linjen, dvs 1) och 2). X Y Regression linje X Y X Prediktionsintervall för Y Y Regressions- linje Konfidensband för E[Y|x] Prediktionsband för Y

38 Prediktionsintervall för Y (forts.)


Ladda ner ppt "Regression Har långa högre inkomst?. Världsrekord på engelska milen."

Liknande presentationer


Google-annonser