Presentation laddar. Vänta.

Presentation laddar. Vänta.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

Liknande presentationer


En presentation över ämnet: "Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:"— Presentationens avskrift:

1 Enkel Linjär Regression

2 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är: –Att vi vill prediktera värdet på en beroende variabel (y) från värden på oberoende variabler (x 1, x 2,…x k.). –Att vi vill analysera relationen mellan de oberoende variablerna och den beroende variabeln.

3 Husets storlek Hus- kostnad Tomtkostnad ca $25,000 Att bygga ett hus kostar ca $75 per kvadratfot. Kostnad = (Storlek) 2 Modellen Modellen har en “deterministisk” komponent och en slumpkomponent.

4 Kostnad = (Storlek) Husets storlek Hus- kostnad Tomtkostnad $25,000   Men kostnaden varierar även för hus av samma storlek! Eftersom kostnaden delvis är oförutsägbar lägger vi till en slumpterm.

5 En första ordningens linjär modell y = beroende variabel x = oberoende variabel (förklaringsvariabel)  0 = y-intercept  1 = linjens lutning  = slumpterm x y 00 Run Rise   = Rise/Run  0 och  1 är okända populations- parametrar, som skattas med hjälp av data.

6 3. Skattning av regressionskoefficienter Skattningarna ges genom att man –drar ett sampel från populationen –beräknar vissa sampelstatistikor –beräknar en rät linje som går rakt genom datamaterialet.           Fråga: Vad skall vi betrakta som en “bra” linje? x y

7 Minsta-kvadrat-skattning En “bra” linje är en linje som minimerar summan av kvadrerade differenser mellan observationerna och linjen.

8 3 3     (1,2) 2 2 (2,4) (3,1.5) Summa av kvadrerade differenser =(2 - 1) 2 +(4 - 2) 2 +( ) 2 + (4,3.2) ( ) 2 = 6.89 Summa av kvadrerade differenser =(2 -2.5) 2 +( ) 2 +( ) 2 +( ) 2 = Låt oss jämföra två linjer Den andra linjen är horisontal Ju mindre kvadratsumman är desto bättre anpassar linjen till data.

9 MK-skattningar av  1 och  0 MK-skattningar av  1 och  0 fås på följande sätt: Den skattade linjen blir då:

10 Exempel –En bilförsäljare vill veta relationen mellan vägmätarens ställning och priset på begagnade bil. –Han/hon tar ett urval av 100 begagnade bilar och noterar vägmätarställning och pris. –Beräkna regressionslinjen. Oberoende variabel x Beroende variabel y Enkel linjär regression

11 Lösning –Först “för hand” och sedan med Excel:

12

13 Detta är linjens lutning. För varje mile på vägmätaren minskar genomsnittspriset med tusen dollar. Tolkning Interceptet är b 0 = tusen dollar. 0Inga obs. Tolka inte interceptet som “Genomsnittspriset på bilar som har gått noll miles” 17249

14 4. Antaganden för  Vill vi beräkna konfidensintervall och genomföra statistiska hypotesprövningar måste följande fyra antaganden vara uppfyllda: –  är normalfördelad. –Väntevärdet för  är noll: E(  ) = 0. –Standardavvikelsen för  är   för alla värden på x. –Slumptermer för olika värden på y är alla oberoende.

15 Våra antagnaden innebär att y är normalfördelad med väntevärdet E(y) =  0 +  1 x, och en konstant standardavvikelse   Våra antagnaden innebär att y är normalfördelad med väntevärdet E(y) =  0 +  1 x, och en konstant standardavvikelse     0 +  1 x 1  0 +  1 x 2  0 +  1 x 3 E(y|x 2 ) E(y|x 3 ) x1x1 x2x2 x3x3  E(y|x 1 )  Standardavvikelsen är konstant, men väntevärdet förändras med x

16 5. Utvärdering av modellen Med minstakvadratmetoden kan man alltid räkna fram en linje oavsett om det existerar ett linjärt samband eller ej. Det är därför viktigt att alltid utvärdera hur pass väl modellen överensstämmer med verkligheten (de data man samlat in). Vi kommer att titta på flera olika sätt för att utvärdera modellen. Alla bygger på något sätt på residualkvadratsumman, SSE.

17 –Detta är summan av de kvadrerade skillnaderna mellan observationerna och den skattade linjen. –Residualkvadratsumman kan fungera som ett mått på hur väl linjen anpassar till data. SSE definieras som Residualkvadratsumman

18 –Om   är liten tenderar slumptermerna att vara när noll. Detta innebär att modellen anpassar väldigt bra till “verkligheten” (våra data). –En estimator av   får vi som “Standard Error of Estimate” (egentligen en skattning av standardavvikelsen för 

19 Utgå ifrån exempel 17.2 och beräkna en skattning av standardavvikelsen för  Lösning (se t.ex. Minitab-utskriften på sid 587): “Standard Error of Estimate” Exempel

20                       Test av lutning (  1 ) –När det inte finns någon linjär relation mellan variablerna bör regressionslinjen vara horisontal.                                                                                           Olika värden på x ger olika medelvärden för y. Ingen linjär relation. Olika värden på x ger samma medelvärde för y Lutningen är skild från noll Lutningen är lika med noll Linjär relation.

21 Vi kan dra slutsatser om  1 från b 1 t.ex. genom en hypotesprövning H 0 :  1 = 0 H 1 :  1  0 (eller 0) –Teststatistika: –Om  är normalfördelad så är teststatistikan t- fördelad med n-2 frihetsgrader. Standardavvikelsen för b 1. där

22 Fortsättning på exempel med bilarna.Vi skall testa om det finns tillräckligt med empiriskt stöd för hypotesen att det finns ett linjärt samband mellan vägmätarens ställning och priset på tre år gamla Ford Tauruses. Använd signifikansnivån  = 5%. Test av  1 Exempel

23 Lösning –H 0 :  1 =0 H 1 :  1  0 (Vi tar ett dubbelsidigt test) –För att beräkna en observation på t behöver vi en observation på b 1 och en skattad standardavvikelse för b 1 (se t.ex. sid 587). –Med 98 frihetsgrader blir de kritiska gränserna ungefär och (Med så här många observationer kan ni även använda standardnormalfördelningen).

24 Det finns överväldigande empiriskt stöd för att vägmätarens ställning har betydelse för bilens pris. (Kausal tolkning) Exempel, Datorutskrift

25 –För att beräkna styrkan av en linjär relation kan vi använda determinationskoefficienten. Determinationskoefficienten

26 Total variation i y Regressionsmodellen Är delvis oförklarad Slumpterm Förklaras delvis av

27 x1x1 x2x2 y1y1 y2y2 y Två observationer (x 1,y 1 ) och (x 2,y 2 ) i ett sampel visas. Total variation i y = Variation förklarad av regressionslinjen + Oförklarad variation (slump) Variation i y = SSR + SSE

28 R 2 mäter andelen av variationen i y som förklaras av variationen i x. Kallas ibland för förklaringsgrad. R 2 kan anta vilket värde som helst mellan noll och ett. R 2 = 1: Observationerna ligger exakt efter en rät linje (perfekt anpassning). R 2 = 0: Inget linjärt samband mellan x och y.

29 exempel se tidigare exempel Lösning Determinationskoefficienten Exempel

30 Nästan 65% av variationen i pris kan förklaras av variation i vägmätarens ställning. Resten ( ca 35%) förblir oförklarat av denna modell. datorutskrift


Ladda ner ppt "Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:"

Liknande presentationer


Google-annonser