Presentation laddar. Vänta.

Presentation laddar. Vänta.

Föreläsningsanteckningar till:

Liknande presentationer


En presentation över ämnet: "Föreläsningsanteckningar till:"— Presentationens avskrift:

1 Föreläsningsanteckningar till:
F10 regressionsanalys F11 regressionsanalys F12 regressionsanalys F13 regressionsanalys

2 Regressionsanalys Hittills i kursen har vi lärt oss hur man kan undersöka hur någonting är. Vi har exempelvis gjort konfidensintervall runt medelvärden eller andelar. Nu ska vi gå över till att studera frågor om varför någonting är som det är och hur vi kan använda statistiska metoder för att prognosticera, ”gissa” hur något bör vara.

3

4 Det verkar finns ett samband mellan reparationskostnaderna på en buss och hur gammal den är.
Det kunde vara intressant för ett bussföretag att ha en modell för att uppskatta reparationskostnaderna så att man kan beräkna hur ofta man bör köpa nya bussar. En sådan modell kunde användas för att prediktera reparationskostnaderna beroende på bussarnas ålder. En rimlig modell skulle kunna se ut såhär: 𝑦 =𝑎+𝑏∙𝑥 Där 𝑦 är det predikterade värdet av reparationskostnaderna 𝑥 är bussens ålder i månader En sån här modell för värdering av reparationskostnader skulle ge ett rätlinjigt samband mellan körsträcka och pris. Problemet är hur vi ska få fram siffror för 𝑎 och 𝑏

5 Den bästa modellen är den där de prognosticerade värdena hamnar så nära de verkliga värdena som möjligt. 𝑦 =𝑎+𝑏∙𝑥 b a

6 Ett sätt att skapa en modell för att prognosticera reparationskostnaderna skulle kunna vara att med en linjal dra en linje som ligger så nära punkterna som möjligt och sedan mäta fram a och b. I den här kursen kommer vi att vara lite mer avancerade. Vi kommer att använda datorer för att räkna fram ekvationen för den linje som ligger så nära punkterna som möjligt. Denna metod kallas OLS (ordinary least squares) och är den enklaste formen för regressionsanalys.

7 Deskriptiv statistisk undersökning Analytisk statistisk undersökning
Hur mycket väger en svensk i genomsnitt? Hur mycket läsk dricker en svensk i genomsnitt? Analytisk statistisk undersökning Är läskdrickande en viktig orsak till övervikt? För att ta reda på om läskdrickande påverkar kroppsvikten kan vi använda regressionsanalys.

8 OBS siffrorna är påhittade!
Vi väljer urval personer att studera, ber dem anteckna hur mycket läsk de dricker per vecka och väger dem. läskdrickande kroppsvikt Olle 1 60 Stina 1,8 65 Pelle 2 59 Nisse 2,3 61 Bo 2,8 70 Anna 3,2 Ritha 72 Sandra 3,4 Lisa 3,6 73 Kerstin 4 75 summa 27,3 670 medel 2,73 67 I tabellen till vänster har alla individer fått varsin rad. I första kolumnen antecknar vi hur mycket läsk de dricker per vecka. I andra kolumnen hur mycket de väger. OBS siffrorna är påhittade!

9 Kropps- vikt b a Läskdrickande liter per vecka

10 Regressionsmodellen beräknad från vårt urval
Den sanna regressionsmodellen för hela populationen Vi kallar X för den oberoende variabeln. Y kallas den beroende variabeln. Vi tror att Y beror på vilket värde X har. Dvs X ska påverka värdet på Y. Men Y ska inte påverka värdet på X. X ska vara oberoende av Y.

11

12 Beroende och oberoende variabel.
I buss exemplet är det nog rimligt att tänka sig att bussens ålder inte påverkas av ifall vi reparerar den eller ej. Bussens ålder är oberoende av reparationskostnaderna. Men när bussen blir äldre kommer vi förmodligen att behöva reparera den mera. Bussens ålder påverkar antalet reparationer. Reparationskostnaderna blir då beroende på åldern. Bussens ålder beror på när den byggdes oavsett hur många gånger den har reparerats sen dess. Så reparationskostnaderna kommer inte att påverka bussens ålder.

13 Medelvikten för de som dricker x liter läsk. Förväntade värden
Medelvikten för de som dricker x liter läsk. Förväntade värden. Predikterade värden. Medelvikten för de som inte dricker läsk. Intercept. Den genomsnittliga viktökningen om man dricker ytterligare en liter läsk per vecka.

14 Kroppsvikten för en enskild individ, i
Kroppsvikten för en enskild individ, i. Det verkliga värdet för denna individ Det predikterade värdet för denna individ, bästa gissningen enligt vår modell. Läskkonsumtionen för denna individ. Avvikelse från regressionslinjen för denna individ, residual. Dvs skillnaden mellan 𝑦 𝑖 och 𝑦 𝑖 .

15 Kropps- vikt e e b a Läskdrickande liter per vecka

16 Residualernas kvadratsumma, SSE
Residualvariansen Residualspridningen, Residualstandardavvikelsen

17 Minsta kvadrat metoden
Ett mått på hur väl en regressionslinje passar in i datamaterialet är hur stor residualernas kvadratssumma är. Vid minsta kvadratmetoden söker vi den regresionslinje som minimerar kvadratsumman. (Vilket innebär att vi också minimerar residualvariansen)

18 Analyze > Regression > Linier

19

20 Resultat från SPSS på illustrationsexemplet
Regressionskoefficienter 𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖

21 Resultat från SPSS på illustrationsexemplet
Residualspridningen

22 𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 läskdrickande kroppsvikt 𝒚 𝒊 Olle 1 60 57,9 Stina 1,8 65 62,1 Pelle 2 59 63,1 Nisse 2,3 61 64,7 Bo 2,8 70 67,4 Anna 3,2 69,5 Ritha 72 Sandra 3,4 70,5 Lisa 3,6 73 71,6 Kerstin 4 75 73,7 Vi kan beräkna de predikterade värdena för varje individ med hjälp av regressionsekvationen. 𝑦 𝑂𝑙𝑙𝑒 =52,586+5,280∙1=57,9 𝑦 𝑆𝑡𝑖𝑛𝑎 =52,586+5,280∙1,8=62,1 𝑦 𝑃𝑒𝑙𝑙𝑒 =52,586+5,280∙2=63,1

23 𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 läskdrickande kroppsvikt 𝒚 𝒊 ei Olle 1 60 57,9
𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 läskdrickande kroppsvikt 𝒚 𝒊 ei Olle 1 60 57,9 2,1 Stina 1,8 65 62,1 2,9 Pelle 2 59 63,1 -4,1 Nisse 2,3 61 64,7 -3,7 Bo 2,8 70 67,4 2,6 Anna 3,2 69,5 -4,5 Ritha 72 2,5 Sandra 3,4 70,5 -0,5 Lisa 3,6 73 71,6 1,4 Kerstin 4 75 73,7 1,3

24 Kropps- vikt e e b a Läskdrickande liter per vecka

25 𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 läskdrickande kroppsvikt 𝒚 𝒊 ei Olle 1 60 57,9 2,1 Stina 1,8 65 62,1 2,9 Pelle 2 59 63,1 -4,1 Nisse 2,3 61 64,7 -3,7 Bo 2,8 70 67,4 2,6 Anna 3,2 69,5 -4,5 Ritha 72 2,5 Sandra 3,4 70,5 -0,5 Lisa 3,6 73 71,6 1,4 Kerstin 4 75 73,7 1,3 Om läskdrickandet ökar från 1 till 2 ökar det predikterade värdet av kroppsvikten med 63,1−57,9=5,2 𝒃-koefficienten tolkas som ökningen av kropps- vikten om läskdrickandet ökar med en liter.

26 𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 𝑦 𝑖 =52,586+5,280∙0=52,586 𝒂-koefficienten tolkas som genomsnittlig kroppsvikt om man inte dricker läsk. Generella tolkningar av regressionskoefficienterna: 𝒂 är vår bästa gissning på värdet av y-variabeln om x-variabeln har värdet 0. 𝒃 är vår bästa gissning på värdeökningen av y-variabeln om x-variabeln ökar med 1 enhet.

27 Konfidensintervall för regressionskoefficienterna
t-fördelningens frihetsgrader är lika med n – 2. Minnesregel: Vi förlorar en frihetsgrad när vi beräknar a och en när vi beräknar b. I vårt exempel har vi 8 frihetsgrader. (10 - 2)

28

29 Konfidensintervall för regressionskoefficienterna
t-fördelningens frihetsgrader är lika med n – 2. Vi förlorar en frihetsgrad när vi beräknar a och en när vi beräknar b. I vårt exempel har vi 8 frihetsgrader.

30 Resultat från SPSS på illustrationsexemplet
Regressionskoefficienter sb b

31 Konfidensintervall för regressionskoefficienterna
t-fördelningens frihetsgrader är lika med n – 2. Vi förlorar en frihetsgrad när vi beräknar a och en när vi beräknar b. I vårt exempel har vi 8 frihetsgrader.

32 Hypotestestning på regressionskoefficienterna

33 Resultat från SPSS på illustrationsexemplet
Regressionskoefficienter t

34

35 Hypotestestning på regressionskoefficienterna
Eftersom 4,636 är större än 2,306 kan nollhypotesen förkastas.

36 Resultat från SPSS på illustrationsexemplet
Regressionskoefficienter 𝑝-värde Eftersom p-värdet är mindre än 0,05 kan nollhypotesen förkastas. Vi drar slutsatsen att läskdrickande ger högre kroppsvikt. Läskdrickande har en signifikant effekt på kroppsvikten.

37 Kropps- vikt e e b a Läskdrickande liter per vecka

38 Korrelationskoefficienten
Om punkterna ligger nära linjen, har vi ett starkt samband. Om punkterna ligger långt från linjen kan linjen inte helt förklara deras läge, det betyder att sambandet är svagt. Korrelationskoefficienten, r, mäter styrkan i det linjära sambandet. Korrelationskoefficienten

39 Om de individer som har ett stort värde på ena variabeln tenderar att ha ett litet värde på den andra blir korrelationskoefficienten nära minus 1. Om de individer som har ett högt värde på ena variabeln också har ett högt värde på den andra blir korrelationskoefficienten nära 1. Om båda fallen förekommer blir korrelationskoefficienten nära 0. Det finns inget linjärt samband mellan variablerna.

40

41

42

43 Regressionskoefficienten mäter linjens lutning.
Viktigt Korrelationskoefficienten mäter styrkan i ett linjärt samband, hur nära linjen punkterna ligger. Regressionskoefficienten mäter linjens lutning. Dataset A Dataset B Vilket datamaterial har störst regressionskoefficient? Vilket datamaterial har störst korrelationskoefficient?

44 Att tolka regressionsresultat
Viktigt Att tolka regressionsresultat 𝑏-koefficienten kan tolkas som hur mycket kroppsvikten ökar, om man ökar sin läskkonsumtion med en liter per vecka. Men vi kan bara göra denna tolkning om vi kan förkasta hypotesen att 𝑏=0, dvs om p-värdet är lägre än signifikansnivån. Men för att kunna göra den tolkningen får inte tunga personer vara törstigare än lätta, dvs y-variabeln får inte påverka x variabeln. Det får inte heller vara så att båda variablerna påverkats av en tredje. 𝑥-variabeln måste vara exogen. Oberoende. Det enda vi kan säga med statistisk säkerhet är att variablerna påverkar varandra, de korrelerar eller samvarierar. I vilken riktning sambandet går kan vi bara uttala oss om ifall det verkar uppenbart att utesluta orsakssamband från y till x.

45 Endogenitetsproblemet.
Viktigt Endogenitetsproblemet. 𝑥 kallas för den oberoende variabeln och y den beroende variabeln. Om x inte är oberoende har vi problem med endogenitet och kan inte lita på våra resultat. Syftet med regressionsanalys är att testa om För att kunna göra det måste vi på logiska grunder kunna utesluta följande samband.

46 Att tolka regressionsresultat
Viktigt Att tolka regressionsresultat 𝑎-koefficienten kan tolkas som hur mycket man väger i genomsnitt om man inte dricker läsk. Men för att kunna göra den tolkningen måste vårt urval innehålla personer som inte dricker läsk. Det enda vi kan säga med någorlunda säkerhet är regressionslinjens lutning i det intervall där våra observationer ligger. Om denna lutning är lika stor ända ner till noll kan vi tolka interceptet, annars har det ingen meningsfull tolkning.

47 överkurs Har SPSS räknat rätt? För att finna det värde på a som ger den minsta kvadrsatsumman deriverar vi med avseende på a.

48 Ger det värde på a som minimerar kvadratsumman
överkurs Ger det värde på a som minimerar kvadratsumman

49 överkurs För att finna det värde på b som ger den minsta kvadrsatsumman deriverar vi med avseende på b.

50 Ger det värde på b som minimerar kvadratsumman
överkurs Ger det värde på b som minimerar kvadratsumman Ger det värde på a som minimerar kvadratsumman, Om båda dessa villkor är uppfyllda samtidigt har vi funnit de värden på a och b som minimerar kvadratsumman, alltså den regressionslinje som bäst passar datamaterialet

51 överkurs

52 överkurs

53 Dessa formler kan användas för att beräkna regressionskoefficienterna.
överkurs Dessa formler kan användas för att beräkna regressionskoefficienterna.

54 överkurs läskdrickande kroppsvikt x2 x*y Olle 1 60 Stina 1,8 65 3,24 117 Pelle 2 59 4 118 Nisse 2,3 61 5,29 140,3 Bo 2,8 70 7,84 196 Anna 3,2 10,24 208 Ritha 72 230,4 Sandra 3,4 11,56 238 Lisa 3,6 73 12,96 262,8 Kerstin 75 16 300 summa 27,3 670 82,37 1870,5 medel 2,73 67

55 Resultat från SPSS på illustrationsexemplet
överkurs Resultat från SPSS på illustrationsexemplet Regressionskoefficienter Vi kan se att SPSS hade räknat rätt

56 Korrelationskoefficienten
överkurs Korrelationskoefficienten

57 överkurs Läskdrickande kroppsvikt x2 xy y2 Olle 1 60 3600 Stina 1,8 65 3,24 117 4225 Pelle 2 59 4 118 3481 Nisse 2,3 61 5,29 140,3 3721 Bo 2,8 70 7,84 196 4900 Anna 3,2 10,24 208 Ritha 72 230,4 5184 Sandra 3,4 11,56 238 Lisa 3,6 73 12,96 262,8 5329 Kerstin 75 16 300 5625 summa 27,3 670 82,37 1870,5 45190 medel 2,73 67

58 Korrelationskoefficienten
överkurs Korrelationskoefficienten

59 Vad är korrelationskoefficienten?
överkurs Vad är korrelationskoefficienten? Dividera med n – 1 både över och under bråkstrecket

60 En summa av positiva tal
överkurs En summa av positiva tal Y X

61 En summa av negativa tal
överkurs En summa av negativa tal Y X

62 Vissa tal positiva andra negativa summan blir nära noll
överkurs Vissa tal positiva andra negativa summan blir nära noll Y X

63 överkurs Korrelationskoefficienten mäter kovariansens andel av variablernas genomsnittliga variation. Den andel av variationen som är gemensam. Om de individer som har ett stort värde på ena variabeln tenderar att ha ett litet värde på den andra blir kovariansen ett negativt tal Om de individer som har ett högt värde på ena variabeln också har ett högt värde på den andra blir kovariansen positiv. Om båda fallen förekommer tar de olika termerna ut varandra och kovariansen blir nära noll.

64 Om kovariansen är nära noll blir korrelationskoefficienten nära noll
överkurs Om kovariansen är positiv och nästan lika stor som den genomsnittliga variansen blir korrelationskoefficienten nära 1. Om kovariansen är nära noll blir korrelationskoefficienten nära noll Om kovariansen är negativ och nästan lika stor som den genomsittliga variansen blir korrelationskoefficienten nära minus 1.

65 överkurs Korrelationskoefficienten mäter kovariansens andel av variablernas genomsnittliga variation. Den andel av variationen som är gemensam. Om de individer som har ett stort värde på ena variabeln tenderar att ha ett litet värde på den andra blir korrelationskoefficienten nära minus 1. Om de individer som har ett högt värde på ena variabeln också har ett högt värde på den andra blir korrelationskoefficienten nära 1. Om båda fallen förekommer blir korrelationskoefficienten nära 0. Det finns inget linjärt samband mellan variablerna.

66 Att göra prognoser En leverantör av villaolja har skrivit kontrakt där han förbinder sig att leverera olja innan den tagit slut utan att villaägarna ska behöva göra någon beställning. Han får inte komma för sent så att oljan tar slut, men det blir onödigt kostsamt om han kommer för ofta. För att optimera leveranserna behöver han göra prognoser över oljeförbrukningen i varje enskild villa. Han tänker att oljeförbrukningen bör bero av utomhustemperaturen och samlar in data över oljeförbrukning och temperatur.

67 Att göra prognoser

68 Att göra prognoser Beräkna oljeförbrukningen vid 7, -2 respektive -8 graders utomhustemperatur.

69 Interpolation och extrapolation
Interpolation, göra prognoser inom observationsområdet. Extrapolation, göra prognoser utanför observationsområdet. För att lita på en prognos bör regressionslinjen vara skattad från ett relativt stort datamaterial och vi bör bara göra prognoser inom det område för x variabeln som våra observationer ligger. Undersökning bör vara ganska nygjord, sambandet kan annars ha ändrats. Övriga faktorer av vikt bör också tas hänsyn till.

70 Mer om residualer 𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 läskdrickande kroppsvikt 𝒚 𝒊
𝑦 𝑖 =52,586+5,280∙ 𝑥 𝑖 läskdrickande kroppsvikt 𝒚 𝒊 ei Olle 1 60 57,9 2,1 Stina 1,8 65 62,1 2,9 Pelle 2 59 63,1 -4,1 Nisse 2,3 61 64,7 -3,7 Bo 2,8 70 67,4 2,6 Anna 3,2 69,5 -4,5 Ritha 72 2,5 Sandra 3,4 70,5 -0,5 Lisa 3,6 73 71,6 1,4 Kerstin 4 75 73,7 1,3

71 Mer om residualer Residualerna består av: Mätfel Verklig variation
Felaktig modellspecifikation Felaktigt utelämnade förklarande variabler För att inferens på regressionsresultaten ska fungera måste individernas Y-värden för ett visst värde på x vara normalfördelade med 𝑦 som medelvärde. Det innebär att residualerna måste vara normalfördelade med noll som medelvärde.

72 Kropps- vikt Läskdrickande liter per vecka

73 Exempel från verkligheten
Vad styr snabbmatsrestaurangernas prissättning? Ibland försöker företag prisdiskriminera mellan olika kunder, ta ut högre priser från kunder med högre betalningsförmåga. För att undersöka om detta är fallet bland snabbmatsrestauranger insamlas följande data från 410 restauranger tillhörande kedjorna Wendys, Burger King, King Fried Chicken och Roy Rogers. Variabelförteckning: Pentree: Priset på den vanligaste menyn (hamburgarmeny eller kycklingmeny) Income: Medianhushållets inkomst i det postnummer område där restaurangen ligger

74 Klicka på plots

75 Vi bockar för histogram och normal probability plot

76

77 Den här modellen verkar inte uppfylla antagandet om normalfördelade resudualer

78 Den här modellen verkar inte uppfylla antagandet om normalfördelade resudualer

79 Om vi ska tolka denna regressionskoefficient så tar restaurangerna ut lägre priser där inkomsterna är höga, tvärtemot vad vi trodde på förhand. Men vi ska nog inte lita på den här modellen.

80 Multipel regressionsanalys
Variabeln 𝑦 kallas för ”den beroende variabeln”. 𝑥-variablerna kallas för ”de oberoende variablerna” eller ”de förklarande variablerna”.

81 läskdrickande kroppsvikt ålder Olle 1 60 15 Stina 1,8 65 20 Pelle 2 59 14 Nisse 2,3 61 16 Bo 2,8 70 23 Anna 3,2 17 Ritha 72 Sandra 3,4 22 Lisa 3,6 73 21 Kerstin 4 75

82 Multipel regressionsanalys
I den ”sanna” modellen betecknas regressionskoefficienterna och slumptermerna med grekiska bokstäver. När vi gjort ett urval kan vi beräkna estimat för regressionskoefficienterna, ”de bästa gissningarna”, av deras sanna värden. Dessa estimatorer betecknar vi med vanliga bokstäver. Med hjälp av dessa kan vi skapa en modell för att beräkna predikterade värden på y-variabeln. De verkliga värdena på y-variabeln kommer att avvika från de värden modellen predikterar. Denna avvikelse kallas residual, när datorn beräknar estimaten för regressionskoefficienterna gör den det genom att minimera residualernas kvadratsumma

83 Multipel regressionsanalys
Residualen är skillnaden mellan det faktiska värdet av y-variabeln och det värde vår modell predikterar. Vilket också kan skrivas:

84 Residualernas kvadratsumma, SSE
Några mått beräknade från residualerna: Residualernas kvadratsumma, SSE Residualvariansen 𝑘: antalet oberoende variabler Residualspridningen

85 Determinationskoefficienten, förklaringsgraden
Spridningen av y, SST kan delas upp i två komponenter. SST Sum of squares total SSE Sum of squares errors SSR Sum of squares regression

86 Y X Ju närmare regressionslinjen prickarna ligger desto större blir förklaringsgraden. I en modell med endast en oberoende variabeln är R2 lika med korrelationskoefficienten i kvadrat.

87 Justerad R2 Residualvariansen som andel av totala variansen i y är den andel av variansen som vi inte lyckats förklara med regressionsmodellen. Om vi tar 1 minus den andel som vi inte lyckats förklara får vi den andel vi lyckats förklara, dvs förklaringsgraden.

88 Den justerade förklaringsgraden ger oss den andel av den beroende variabelns varians som regressionsmodellen kan förklara. Förklaringsgraden ger oss ett mått på den andel av variationen i den beroende variabeln (mätt som kvadratsummor) som modellen förklarar.

89 läskdrickande kroppsvikt ålder Olle 1 60 15 Stina 1,8 65 20 Pelle 2 59 14 Nisse 2,3 61 16 Bo 2,8 70 23 Anna 3,2 17 Ritha 72 Sandra 3,4 22 Lisa 3,6 73 21 Kerstin 4 75

90

91 Resultat från SPSS R kallas inte längre för korrelationskoefficient eftersom korrelationskoefficienten enbart används mellan 2 variabler.

92 Regressionsmodell med 2 oberoende variabler
𝐾𝑟𝑜𝑝𝑝𝑠𝑣𝑖𝑘𝑡=40,5+3,26∙𝑙ä𝑠𝑘𝑑𝑟𝑖𝑐𝑘𝑎𝑛𝑑𝑒+0,92∙å𝑙𝑑𝑒𝑟+𝑒 𝐾𝑟𝑜𝑝𝑝𝑠𝑣𝑖𝑘𝑡 =40,5+3,26∙𝑙ä𝑠𝑘𝑑𝑟𝑖𝑐𝑘𝑎𝑛𝑑𝑒+0,92∙å𝑙𝑑𝑒𝑟 Tolkningar: Om man dricker ytterligare en liter läsk ökar kroppsvikten med 3 kilo givet oförändrad ålder. Om man blir ett år äldre ökar kroppsvikten med knappt ett kilo givet oförändrat läskdrickande. I en multipel regressionsmodell gäller tolkningen enbart om övriga oberoende variabler är oförändrade.

93 Jämförelse av två olika modeller
Några av de ungdomar vi trodde var tunga för att de druckit mycket läsk var i själva verket tyngre för att de var äldre.

94 Jämförelse av två olika modeller
Med fler oberoende variabler kan en större andel av variansen i kroppsvikt förklaras, förklaringsgraden ökar.

95 Mera om förklaringsgraderna och ANOVA-tabellen
SSR SSE SST 272, =0,908 1− 27, =0,908 1− 27, =0,882

96 Kroppsvikten kan också bero av vilket kön individen har
läskdrickande kroppsvikt ålder kön Olle 1 60 15 Kille Stina 1,8 65 20 Tjej Pelle 2 59 14 Nisse 2,3 61 16 Bo 2,8 70 23 Anna 3,2 17 Ritha 72 Sandra 3,4 22 Lisa 3,6 73 21 Kerstin 4 75

97 Dummy variabler Kvalitativa variabler kan införas i analysen genom att använda dummyvariabler (binära variabler) som får siffran 1 för de individer som har en viss egenskap och 0 för de individer som ej har den egenskapen. Om den kvalitativa variabeln har 2 utfall krävs 1 dummyvariabel Om den kvalitativa variabeln har 3 utfall krävs 2 dummyvariabler Om den kvalitativa variabeln har 4 utfall krävs 3 dummyvariabler.

98 läskdrickande kroppsvikt ålder kön flicka Olle 1 60 15 Kille Stina 1,8 65 20 Tjej Pelle 2 59 14 Nisse 2,3 61 16 Bo 2,8 70 23 Anna 3,2 17 Ritha 72 Sandra 3,4 22 Lisa 3,6 73 21 Kerstin 4 75

99

100

101 Regressionsmodell med 3 oberoende variabler
En Dummyvariabels regressionskoefficient tolkas som skillnaden mot referenskategorin. I det här fallet: Tjejer väger i genomsnitt 3 kilo mindre än killar, givet en viss ålder och en viss mängd läskdrickende. 𝐾𝑟𝑜𝑝𝑝𝑠𝑣𝑖𝑘𝑡=38,3+2,76∙𝑙ä𝑠𝑘𝑑𝑟𝑖𝑐𝑘𝑎𝑛𝑑𝑒+1,207∙å𝑙𝑑𝑒𝑟−3,171∙𝑓𝑙𝑖𝑐𝑘𝑎+𝑒 𝐾𝑟𝑜𝑝𝑝𝑠𝑣𝑖𝑘𝑡 =38,3+2,76∙𝑙ä𝑠𝑘𝑑𝑟𝑖𝑐𝑘𝑎𝑛𝑑𝑒+1,207∙å𝑙𝑑𝑒𝑟−3,171∙𝑓𝑙𝑖𝑐𝑘𝑎

102 Jämförelse av två olika modeller
Tjejerna är äldre än killarna i vårt urval. När vi inte tog hänsyn till kön underskattade vi ålderns betydelse för kroppsvikten. Några av de ungdomar vi trodde var tunga för att de druckit mycket läsk var i själva verket tyngre för att de var killar.

103 Jämförelse av 3 olika modeller
Med fler oberoende variabler kan en större andel av variansen i kroppsvikt förklaras, förklaringsgraden ökar.

104 Heteroskedasticitet Residualernas varians ska vara lika stor oavsett värde på de oberoende variablerna, om så inte är fallet råder heteroskedasticitet. Om man plottar residualerna mot var och en av de oberoende variablerna kan man se om det föreligger heteroskedasticitet.

105 I det här fallet har vi hetero-skedasticitet eftersom residualernas varians är större när antalet rum ökar. Det bildas ett strutmönster Om heteroskedasticitet föreligger är regressionskoefficienternas medelvärde fortfarande väntevärdesriktigt. Men vi kan inte lita på standardavvikelsen och därmed inte på t-värden, p-värden och konfidensintervall.

106 Exempel från verkligheten
En fastighetsmäklare vill skapa en modell för att värdera hus. Data over prices and characteristics of sold houses, collected from the real estate pages of the Boston Globe during These are homes that were sold in the Boston, MA area. Följande variabler samlas in om dessa hus: Försäljningspris, 1000 dollar taxeringsvärde, 1000 dollar antal sovrum tomtstorlek kvadratfot husstorlek kvadratfot kolonial stil (dummy variabel)

107

108

109 Tolkning av regressionskoefficienter
Signifikansnivå 5 % Interceptet är inte signifikant eftersom p-värdet överstiger 0,05. Dessutom finns inga hus som har tomtstorlek och bostadsyta lika med 0. Därför tolkar vi ej interceptet. Tomtstorleken är signifikant eftersom p-värdet är lägre än 0,05. Om tomtstorleken ökar med en kvadratfot stiger priset med 0,002 tusen dollar dvs med 2 dollar vid oförändrat värde på övriga oberoende variabler. Husstorleken är signifikant eftersom p-värdet är lägre än 0,05. Om husstorleken ökar med en kvadratfot stiger priset med 0,124 tusen dollar dvs med 124 dollar, vid oförändrat värde på övriga oberoende variabler. Antal sovrum är inte signifikant eftersom p-värdet är högre än 0,05 och tolkas därför inte.

110 SSR SSE SST 𝑅 2 =1− 𝑦 𝑖 − 𝑦 𝑖 𝑦 𝑖 − 𝑦 =1− 𝑆𝑆𝐸 𝑆𝑆𝑇 = 𝑆𝑆𝑅 𝑆𝑆𝑇 𝑅 2 = =0,67 𝑅 𝑎𝑑𝑗 2 =1− 𝑦 𝑖 − 𝑦 𝑖 𝑛−𝑘− 𝑦 𝑖 − 𝑦 𝑛−1 =1− 𝑆𝑆𝐸 𝑛−𝑘−1 𝑆𝑆𝑇 𝑛−1 𝑅 𝑎𝑑𝑗 2 =1− =0, 66 𝑠 𝑦.𝑥 = 𝑦 𝑖 − 𝑦 𝑖 𝑛−𝑘−1 = 𝑆𝑆𝐸 𝑛−𝑘−1 𝑠 𝑦.𝑥 = =59,88

111 Residualerna är skapligt normalfördelade

112 Viss tendens till Heteroskedasticitet

113 Förmodligen inte heteroskedasticitet, men lite svårt att avgöra.

114 Här har vi ingen heteroskedasticitet

115 Tendens till heteroskedasticitet i variabeln antal rum, dessutom inte signifikant.
Enklast är att ta bort antal rum ur modellen. (Det finns också andra estimationstekniker som är mindre känsliga för heteroskedasticitet, så ett annat alternativ hade varit att välja en annan estimationsmetod. Men det är utanför den här kursen.)

116

117

118

119

120 Av de tre återstående variablerna är kolonial inte signifikant
Av de tre återstående variablerna är kolonial inte signifikant. Men p-värdet blev bättre när vi tog bort antal rum. Vi kan prova med en modell utan kolonial för att jämföra.

121

122 De två sista modellerna är ger snarlika resultat för hus och tomtstorlek. Residualerna ser bra ut. Spelar inte så stor roll vilken vi väljer, kanske är det intressant att visa att kolonial hus verkar vara något populärare även om den variabeln inte är signifikant. Men vissa menar att man aldrig ska redovisa icke signifikanta resultat. Beror också på vilket teoretiska argument som finns för att ha med variabeln.

123 Vad händer om vi också tar med taxeringsvärdet i regressionen?

124 Taxeringsvärdet är det enda som på 5 % nivån ger en signifikant påverkan på försäljningspriset.
Men betyder det att människor inte bryr sig om hur stort huset är eller hur stor tomten är när de köper hus? Nej vi såg ju tidigare att de variablerna hade effekt när taxeringsvärdet inte var med. Taxeringsvärdet bestäms av husens egenskaper såsom hus och tomtastorlek. Därmed fångar taxeringsvärdet effekten av hus och tomtstorlek.

125 Multikollinearitet Om de oberoende variablerna är korrelerade med varandra kan vi inte lita på regressionsresultatet. Variabler som egentligen är signifikanta kan bli icke-signifikanta.

126 Multikollinearitet Vill vi göra en gissning om vad en specifikt hus kommer att kosta är förmodligen taxeringsvärdet bästa utgångspunkten. Men vill vi veta varför huset kostar som det gör måste vi ta bort taxeringsvärdet ur modellen för att kunna se effekten av de andra variablerna. Man kan tycka att antal rum också borde påverka priset. Kanske det också påverkas av multikolliniaritet? Husstorlek och antal rum är korrelerade, vi kan prova en model med antal rum men utan husstorlek.

127

128 Hur många variabler ska man ta med?
Ta med alla logiskt väsentliga variabler Syftet med regressionen. Så liten modell som möjligt men med skapligt hög förklaringsgrad.

129 Icke linjär regression
Se polynomsamband.xls

130 Kvadratiska modeller Kvadratiska modeller är en typ av regressionsmodeller där en eller flera av de oberoende variablerna även finns med i kvadrat.

131 Skördeexemplet från boken

132 Y X X2 25 1 50 2 4 60 3 9 70 16 5 6 36

133

134

135

136

137 Om residualerna bildar ett bågmönster finns skäl att prova en icke linjär modell.
Ofta är dock inte bågmönstret så här tydligt så om man misstänker att ett samband kan vara icke linjärt kan det vara bra att prova en kvadrerad variabel även om man inte kan se något bågmönster.

138 Log linjära modeller. I en log linjär modell logaritmeras variablerna innan vi stoppar in dem i regressionsmodellen. I ett log linjärt samband ger en procentuell ökning av den oberoende variabeln alltid samma procentuella ökning av den beroende variabeln.

139 Elasticitetssamband En elasticitet anger den procentuella förändringen av en variabel vid en procentuell förändring av en annan variabel. Egenpriselasticitet. Hur mycket ändras efterfrågan i procent när det egna priset stiger med 1 procent. Korspriselasticitet. Hur mycket ändras efterfrågan i procent när priset på en annan vara stiger med 1 procent. 𝑄 𝐷 =𝐸𝑓𝑡𝑒𝑟𝑓𝑟å𝑔𝑎𝑑 𝑘𝑣𝑎𝑛𝑡𝑖𝑡𝑒𝑡 𝑎𝑣 𝑣𝑎𝑟𝑎 1 𝑃 1 =𝑃𝑟𝑖𝑠 𝑝å 𝑣𝑎𝑟𝑎 1 𝑃 2 =𝑃𝑟𝑖𝑠 𝑝å 𝑣𝑎𝑟𝑎 2

140 Elasticitetssamband kan ej skattas med OLS om vi använder observerade köp.
När efterfrågan på en vara ökar tenderar dess pris att öka. Priser är inte oberoende, därför kan priselasticiteter inte skattas med OLS om vi använder verklig data. OLS kan användas på experimentdata, se övning om priselasticiteter. Om vi använder verklig data måste vi använda mer avancerade metoder.

141 Log linjära modeller Låt oss gå tillbaka till huspriserna i Boston och prova en loglinjär modell. Dels kan se om modellen passar data bättre. Men även om den inte gör det kanske vi är mer intresserade av den procentuella prisförändringen från en procentuell förändring av husstorleken.

142

143 Log linjär modell

144 Linjär modell

145 Att tolka regressionskoefficienter från log linjära modeller:
Om tomten är 1 procent större ökar priset med 0,17 procent. Om huset är 1 procent större ökar priset med 0,75 procent. Kolonial stil är svårare eftersom den inte är logaritmerad. (Dummyvariabler kan inte logaritmeras eftersom man inte kan ta logaritmen av noll) Här måste koefficienten först antiloggas ,066 =1,1641 Om huset har en kolonial stil är priset ca 16 procent högre. Men vi ska ju egentligen inte tolka denna koefficient eftersom den inte är signifikant.

146 Sammanfattning av regressionsanalys:
Förklaringsgraden (R2): Den andel av variansen i den beroende variabeln som förklaras av regressionsmodellen. P-värden: Sannolikheten att vi har fel om vi förkastar nollhypotesen att regressionskoefficienten är lika med noll. Dvs om vi säger att det finns en effekt från den oberoende variabeln till den beroende variabeln. Om p-värdet är lägre än den signifikansnivå vi valt säger vi att koefficienten är signifikant.

147 Sammanfattning av regressionsanalys:
Att tolka regressionskoefficienterna Om den beroende variabeln är en icke logaritmerad variabel och den oberoende variabeln är: En vanlig kvantitativ variabel: Ökningen av Y när X ökar med en enhet, vid oförändrade värden på övriga oberoende variabler. En dummy variabel: Skillnaden i Y jämfört med referenskategorin, vid oförändrade värden på övriga oberoende variabler. En kvadrerad variabel. Parametern före den okvadrerade variabeln ger oss effekten av X på Y när X är lågt. Parametern före den kvadrerade variabeln ger oss förändringen av effekten av X på Y när X ökar.

148 Sammanfattning av regressionsanalys:
Att tolka regressionskoefficienterna Om den beroende variabeln är en logaritmerad variabel och den oberoende variabeln är: Också en logaritmerad variabel Den procentuella ökningen av Y när X ökar en procent, vid oförändrade värden på övriga oberoende variabler. En vanlig kvantitativ variabel: Antilog av koefficienten minus ett och multiplicerat med hundra ger oss den procentuella ökningen av Y när X ökar en enhet, vid oförändrade värden på övriga oberoende variabler. En dummy variabel: Antilog av koefficienten minus ett och multiplicerat med hundra ger oss den procentuella skillnaden i Y jämfört med referenskategorin, vid oförändrade värden på övriga oberoende variabler.

149 Sammanfattning av regressionsanalys:
𝑙𝑜𝑔𝑦=3,2+1,5∙𝑙𝑜𝑔 𝑥 1 +0,11∙ 𝑥 2 10 0,11 =1,29 Om x1 ökar med en procent ökar y med 1,5 procent, vid oförändrade värden på övriga oberoende variabler. Om x2 ökar med en enhet ökar y med 29 procent, vid oförändrade värden på övriga oberoende variabler. Om x2 är en dummy: skillnaden mot referenskategorin är 29 procent, vid oförändrade värden på övriga oberoende variabler.

150 Ytterligare ett praktiskt exempel
Värdering av en sopförbränningsanläggning. En sopförbränningsanläggning släpper ut luftföroreningar som kan påverka hälsan hos dem som bor i närheten. Därmed påverkar det också priserna på hus i närheten. För att undersöka hur stor denna effekt är samlades data in över ett antal hus som sålts i staden North Andover. Variablerna vi har tillgång till är följande: Age: Husets ålder i år Agesq: Husets ålder * Husets ålder Price : Försäljningspriset i dollar Cbd: Avstånd till centrum i km Area : Storleken på huset i kvadratfot Land : Storleken på tomten i kvadratfot Dist : Avstånd till sopförbränningsanläggningen i km.

151 age agesq cbd price area land dist 48 2304 3000 60000 1660 4578 10700
83 6889 4000 40000 2612 8370 11000 58 3364 34000 1144 5000 11500 11 121 63900 1136 10000 11900 44000 1868 12100 78 6084 46000 1780 9500 22 484 56000 1700 10878 11700 38500 1556 3870 10200 42 1764 60500 1642 7000 10500 41 1681 55000 1443 7950 1000 39000 1439 4990 8600 38 1444 6000 41000 1482 8017 12200 18 324 50900 1290 12538 12400 32 1024 9000 52000 1274 7858 16800 49000 1476 15664 17200 2000 80000 1838 9249 9900 56 3136 50000 1536 10491 70 4900 59000 2458 9400 26 676 42000 750 8000 10600 21 441 71500 2106 13370 24 576 43000

152 Ytterligare ett praktiskt exempel
Värdering av en sopförbränningsanläggning. 𝑃𝑟𝑖𝑠=𝛼+ 𝛽 1 ∙𝐴𝑔𝑒+ 𝛽 2 ∙ 𝐴𝑔𝑒 2 + 𝛽 3 ∙𝐶𝑏𝑑+ 𝛽 4 ∙𝐴𝑟𝑒𝑎+ 𝛽 5 ∙𝐿𝑎𝑛𝑑+ 𝛽 6 ∙𝐷𝑖𝑠𝑡+𝜀 Om vi ”hittar på” värden på 𝛼, 𝛽 1 , 𝛽 2 , 𝛽 3 , 𝛽 4 , 𝛽 5 och 𝛽 6 kan vi beräkna priset för ett godtyckligt hus, om vi vet värdena på de förklarande variablerna. Vad är bästa gissningarna för parametrarna? De värden som ger oss de minsta feltermerna 𝜀

153 Ytterligare ett praktiskt exempel
Värdering av en sopförbränningsanläggning. Vi låter datorn räkna ut de värden på parametrarna som ger oss den minsta kvadratsumman på residualerna. Vi har estimerat regressionsekvationen: 𝑃𝑟𝑖𝑠=33 233−1 128∙𝐴𝑔𝑒+4,8∙ 𝐴𝑔𝑒 2 −2,2∙𝐶𝑏𝑑+34,6∙𝐴𝑟𝑒𝑎+0,11∙𝐿𝑎𝑛𝑑+1,6∙𝐷𝑖𝑠𝑡+𝑒

154 Ytterligare ett praktiskt exempel
Värdering av en sopförbränningsanläggning. Vi har estimerat regressionsekvationen: 𝑃𝑟𝑖𝑠=33 233−1 128∙𝐴𝑔𝑒+4,8∙ 𝐴𝑔𝑒 2 −2,2∙𝐶𝑏𝑑+34,6∙𝐴𝑟𝑒𝑎+0,11∙𝐿𝑎𝑛𝑑+1,6∙𝐷𝑖𝑠𝑡+ 𝑒 Vi kan använda den för att beräkna det predikterade värdet på priset för första huset. age agesq cbd price area land dist 48 2304 3000 60000 1660 4578 10700 Predikterade värdet blir: 𝑦 =33 233−1 128∙48+4,8∙ 48 2 −2,2∙ ,6∙ ,11∙ ,6∙10 700=58 608 Residualen blir 𝑒=pris− 𝑦 =60 000−58 608=1 392

155 age agesq cbd price area land dist yhat residual 48 2304 3000 60000
1660 4578 10700 58608 1392 83 6889 4000 40000 2612 8370 11000 72772 -32772 58 3364 34000 1144 5000 11500 33689 311 11 121 63900 1136 10000 11900 72051 -8151 44000 1868 12100 66441 -22441 78 6084 46000 1780 9500 46485 -485 22 484 56000 1700 10878 11700 80677 -24677 38500 1556 3870 10200 38436 64 42 1764 60500 1642 7000 10500 62107 -1607 41 1681 55000 1443 7950 56856 -1856 1000 39000 1439 4990 8600 36351 2650 38 1444 6000 41000 1482 8017 12200 55779 -14779 18 324 50900 1290 12538 12400 69337 -18437 32 1024 9000 52000 1274 7858 16800 54077 -2077 49000 1476 15664 17200 74997 -25997 2000 80000 1838 9249 9900 60008 19992 56 3136 50000 1536 10491 51017 -1017 70 4900 59000 2458 9400 75474 -16474 26 676 42000 750 8000 10600 44340 -2340 21 441 71500 2106 13370 95920 -24420 24 576 43000 54326 -11326

156 SSR SSE SST Determinationskoefficienten, förklaringsgraden 𝑅 2 =1− 𝑦 𝑖 − 𝑦 𝑖 𝑦 𝑖 − 𝑦 =1− 𝑆𝑆𝐸 𝑆𝑆𝑇 = 𝑆𝑆𝑅 𝑆𝑆𝑇 =1− 2,68∙ ,98∙ = 3,30∙ ,98∙ =0,552 Den justerade determinationskoefficienten, justerade förklaringsgraden 𝑅 𝑎𝑑𝑗 2 =1− 𝑦 𝑖 − 𝑦 𝑖 𝑛−𝑘− 𝑦 𝑖 − 𝑦 𝑛−1 =1− 𝑆𝑆𝐸 𝑛−𝑘−1 𝑆𝑆𝑇 𝑛−1 =1− 2,68∙ ,98∙ =0,543

157 Att tolka regressionskoefficienterna
Vi har estimerat regressionsekvationen: 𝑃𝑟𝑖𝑠=33 233−1 128∙𝐴𝑔𝑒+4,8∙ 𝐴𝑔𝑒 2 −2,2∙𝐶𝑏𝑑+34,6∙𝐴𝑟𝑒𝑎+0,11∙𝐿𝑎𝑛𝑑+1,6∙𝐷𝑖𝑠𝑡+ 𝑒 age agesq cbd price area land dist 48 2304 3000 60000 1660 4578 10700 1661 Predikterade värdet blir: 𝑦 =33 233−1 128∙48+4,8∙ 48 2 −2,2∙ ,6∙ ,11∙ ,6∙10 700=58 608 𝑦 =33 233−1 128∙48+4,8∙ 48 2 −2,2∙ ,6∙ ,11∙ ,6∙10 700=58 642,6 Om husets area ökar med en kvadratfot stiger priset med 34,6 dollar vid oförändrade värden på övriga oberoende variabler. Om avståndet till centrum stiger med en km så sjunker priset med 2,2 dollar vid oförändrade värden på övriga oberoende variabler. Om avståndet till sopförbränningen stiger med en km så ökar priset med 1,6 dollar vid oförändrade värden på övriga oberoende variabler. Husets ålder påverkar priset negativt men ju äldre huset blir desto svagare bir den effekten.

158 Bias från utlämnade förklarande variabler
Enligt den här modellen så sjunker priset när huset ligger längre bort från sopförbränningen. Husen är dyrare nära sopförbränningen! Vi har missat en viktig variabel, eftersom avståndet till centrum inte finns med i den här modellen, fångas den effekten av avståndet till sopförbränningen som ligger ganska nära centrum.

159 Om vi har med avståndet till centrum som förklarande variabel får vi det förväntade resultaten på regressionskoefficienten för avstånd till sopförbränningen. När avståndet till sopförbränningen ökar stiger huspriset givet att avståndet till centrum är detsamma.

160 Vi ville veta hur huspriserna påverkas av sopförbränningen
Vi ville veta hur huspriserna påverkas av sopförbränningen. Vårt resultat blev att en km ökning av avståndet höjer huspriset med 1,648 dollar. Men hur pass exakt är den uppskattningen? Om vi hade baserat våra beräkningar på ett annat urval av hus hade vi säkerligen fått ett värde som avvikit något från 1,648 Vi kan beräkna ett konfidensintervall där vi har 99 % sannolikhet att fånga det sanna värdet.

161 Konfidensintervall för regressionskoefficienter
𝑏±𝑡∙ 𝑠 𝑏 Där t har n – k – 1 frihetsgrader. I vårt fall har vi 314 frihetsgrader, då kan vi lika väl använda z. 1,648±2,576∙0,705 −0,168< 𝛽 𝑑𝑖𝑠𝑡 <3.464 med 99 procents säkerhet finns det sanna värdet inom detta intervall 1,648±1,96∙0,705 0,27< 𝛽 𝑑𝑖𝑠𝑡 <3.03 med 95 procents säkerhet finns det sanna värdet inom detta intervall

162 Problem som kan uppstå vid regressionsanalys.
Ej normalfördelade residualer Heteroskedasticitet Endogenitet Multikollinearitet Felspecificerad modell linjär – icke linjär felaktigt utelämnade oberoende variabler


Ladda ner ppt "Föreläsningsanteckningar till:"

Liknande presentationer


Google-annonser