Kvadratisk regression, forts.

Kvadratisk regression, forts.
Vi fortsätter med materialet om fastigheter. Tidigare föreslog vi som en tänkbar modell y=β0 + β3·x3 + β5·x32 + ε Vari ligger tanken att just använda en kvadratisk term? Det inses att priset knappast kan öka helt linjärt med antal rum. För många rum i en fastighet gör den ointressant för de flesta hushåll.  Priset borde ”mattas av” då rummen blir för många

Det är fullt tänkbart att denna ”avmattning” kan ha följande utseende:
…och då kan en andragradskurva vara en lämplig anpassning. Notera dock att anpassningen bara kan göras i det rumsintervall som existerar. Det finns ingen anledning att tro att priset skulle vända och gå ned till 0 så småningom.

Varför y=β0 + β3·x3 + β5·x32 + ε och inte bara y=β0 + β5·x32 + ε ? Med enbart x32 med i modellen skulle vi försöka att anpassa följande typ av samband: …ty renodlade x2-kurvor har sitt max/min-värde då x=0 Med en x-term med i modellen tillåts max (el. min) att hamna på annat ställe.

Kombination av en andragradskurva med andra variabler.
Vi kan nu tänka oss att kombinera x3 och x32 med andra variabler i en modell. Pröva först modellen y=β0 + β1·x1 + β3·x3 + β5·x32 + ε  Regression Analysis: Price versus Area, Rooms, Rooms_sq The regression equation is Price = Area Rooms Rooms_sq Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq S = R-Sq = 50.7% R-Sq(adj) = 49.6%

b1, b3 och b5 är alla signifikant  0
Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq b1, b3 och b5 är alla signifikant  0 Hur kan vi tolka värdena på dessa koefficienter? Såväl b1 som b3 är positiva, vilket är i linje med hur de enskilda sambanden verkar se ut. b5 är negativ och detta innebär att vi har en kvadratisk form med max-punkt. Hade koefficienten varit positiv hade vi haft en min-punkt. Om vi fixerar x3 dvs. antal rum till ett visst värde (spelar ingen roll vilket) tolkas värdet b1= som att priset ökar med i genomsnitt c:a 49 dollar då bostadsytan ökar med 1 ft2. Denna tolkning kan förstås skalas upp och blir liktydig med att priset ökar med c:a dollar då bostadsytan ökar med 1000 ft2. Om vi istället fixerar bostadsytan till ett visst värde finns inte samma enkla tolkning av b3 och b5 p g a att sambandet med x3 ej är rent linjärt.

Så var inte fallet i modellen med bara x1 och x3.
Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq Notera att i denna modell blir alltså b3 signifikant skild från 0 (alt. variabeln x3 ingår signifikant i modellen/är signifikant). Så var inte fallet i modellen med bara x1 och x3. Den kvadratiska termen medför alltså förutom sin egen förklaring även att sambandet mellan y och x3 som helhet blir tydligare. Vi kan också fundera på hur bostadsyta och antal rum skulle kunna samspela i att förklara prisets variation. En bostad med mycket stor yta, men endast ett rum skulle förmodligen vara mindre attraktiv än en bostad med måttligt stor yta men fler rum.

Vi bildar då nya variabeln x1·x3 och analyserar modellen
Denna effekt kan testas i regressionsmodellen genom att införa en samspelsterm. Vi bildar då nya variabeln x1·x3 och analyserar modellen y=β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε  MTB > let c7=c2*c4 MTB > name c7 'Area*Rooms' Regression Analysis: Price versus Area, Rooms, Rooms_sq, Area*Rooms The regression equation is Price = Area Rooms Rooms_sq Area*Rooms Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq Area*Roo S = R-Sq = 53.4% R-Sq(adj) = 52.2%

Det kvadratiska sambandet ”tas över” av samspelstermen.
Här får vi alltså en annan bild. Jämförelse med den föregående modellen: y=β0 + β1·x1 + β3·x3 + β5·x32 + ε Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq I den nya modellen upphör b3 och b5 att vara sign. skilda från 0. Istället blir b6 det. Det kvadratiska sambandet ”tas över” av samspelstermen. y=β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε Predictor Coef SE Coef T P Constant Area Rooms Rooms_sq Area*Roo

Räcker det då med modellen
y=β0 + β1·x1 + β6 ·x1·x3 + ε ? Regression Analysis: Price versus Area, Area*Rooms The regression equation is Price = Area Area*Rooms Predictor Coef SE Coef T P Constant Area Area*Roo S = R-Sq = 50.3% R-Sq(adj) = 49.6% Tydligen! Förklaringsgraden ändras något men är inte nämnvärt sämre än i den första av de tre modellerna.

Blir denna modell enklare att tolka?
The regression equation is Price = Area Area*Rooms Predictor Coef SE Coef T P Constant Area Area*Roo Blir denna modell enklare att tolka? Numeriskt: Nej , men konceptmässigt kan det vara enklare att förstå att bostadsyta och antal rum samverkar när det gäller prissättning. Den kvadratiska modellen tar egentligen bara hand om sambanden mellan de två olika förklaringsvariablerna var för sig. Samspel kallas på engelska interaction och på svenska säger man också ibland att variablerna interagerar.

Följande graf kan kanske illustrera hur det förhåller sig:
För bostäder med 3, 4, 5 och 6 rum ter sig sambandet med bostadsyta vara ganska tydligt linjärt. För bostäder med 7 rum eller fler börjar det spreta ordentligt och det linjära sambandet är inte längre tydligt.

Man skulle t ex kunna tänka sig att det finns olika regressionslinjer mellan pris och bostadsyta beroende på vad antalet rum är.

En modell med en samspelsterm kan också ses som ett specialfall av kvadratisk regression.
Det gäller nämligen att det kvadratiska kan vara i fler än en variabel. En fullständig kvadratisk modell i två variabler, x1 och x2 (dvs. vilka som helst, inte just motsvarande variabler i vårt datamaterial) ser ut på följande sätt: y=β0 + β1·x1 + β2·x2 + β3·x12 + β4·x22 + β5· x1·x2 + ε Genom att plocka bort vissa av termerna i denna modell erhålls olika undermodeller där vissa fortfarande kan sägas tillhöra gruppen av kvadratiska regressionsmodeller.

Kvalitativa variabler
Kvalitativa variabler har inte numeriskt tolkningsbara värden utan värdena är koder för olika klasser av observationer. Exempel är en variabel som är 0 för män och 1 för kvinnor. Ett annat exempel är en variabel som är 1 för småföretag, 2 för mellanstora företag och 3 för stora företag. För att kunna använda kvalitativa variabler i regressionsanalys krävs att de görs om till s k indikatorvariabler eller dummyvariabler. (Andra namn är 0/1-variabler resp. dikotoma variabler)

En kvalitativ variabel som bara har två värden behöver egentligen inte göras om, men ur tolkningssynpunkt är det bra om värdena transformeras till 0 och 1. Exempel: Kön kodas med 0 och 1. Vad som är 0 resp. 1 spelar förstås ingen roll. Om vi har en kod som har värdet 1 för små företag och 2 för större och stora företag görs värdena enkelt om till 0 resp. 1 En kvalitativ variabel med fler än två värden måste göras om till flera indikatorvariabler.

Exempel: Företag antas vara kodade med 1 för små företag, 2 för mellanstora företag och 3 för stora företag. Denna variabel görs om till  Företagstyp Ursprunglig kod D1 D2 Små 1 Mellanstora 2 Stora 3 Grundregel: Om den kvalitativa variabeln har m olika koder eller värden (kallas också nivåer) skall m1 indikatorvariabler användas.

Minitab har funktioner för att
manuellt koda om en variabels värden till andra värden skapa indikatorvariabler för att ersätta en kvalitativ variabel Exempel: Antag att vi i kolumnen C1 har en kvalitativ variabel med värdena 1, 2, 3, 4 och 5. Med kommandot MTB > indicator c1 c2 c3 c4 c5 c6 skapas fem indikatorvariabler (C2-C6), en för varje värde hos C1 I C2 är alltså värdet 1 för de rader där värdet i C1 är 1 och 0 i övriga rader I C3 är värdet 1 för de rader där värdet i C1 är 2 och 0 i övriga rader osv. I regressionen används sedan fyra av dessa fem indikatorvariabler

Vi återvänder nu till vårt datamaterial om fastigheter.
Antag att vi vill dela in fastigheterna i klasserna fastigheter med högst 6 rum fastigheter med fler än 6 rum För att göra detta kan vi skapa en indikatorvariabel som är =0 för fastigheter med högst 6 rum och 1 för övriga, dvs

Vi behöver alltså koda om variabeln x3 i Minitab
Vi behöver alltså koda om variabeln x3 i Minitab. Detta kan göras med kommandon eller via menyer. Vi visar först med menyer: ManipCodeNumeric to Numeric… Ny kolumn anges här Värdena i x3 går från 3 till 13

Med kommandon hade vi gett följande:
MTB > code (3:6) 0 (7:13) 1 c4 c8 (Observera mellanslagen) Den nya kolumnen ges här namnet ”D” (för att få samstämmighet med det införda variabelnamnet) Vi prövar nu följande regressionsmodell y=β0 + β1·x1 + β7·D + ε Regression Analysis: Price versus Area, D The regression equation is Price = Area D Predictor Coef SE Coef T P Constant Area D S = R-Sq = 49.3% R-Sq(adj) = 48.6%

Hur kan vi tolka denna analys?
Predictor Coef SE Coef T P Constant Area D Indikatorvariabeln D blir inte signifikant, men vi låter den kvarstå tills vidare. Hur kan vi tolka denna analys? D kommer att dela in materialet i två delar och ger faktiskt två skattade regressionsmodeller för sambandet mellan pris och bostadsyta: 1) D = 0  2) D = 1 

Parallella linjer, med olika skärning med y-axeln.

För att inte tvingas in till parallella linjer inför vi nu en samspelsterm, x1·D , i modellen:
y=β0 + β1·x1 + β7·D + β8·x1·D + ε Regression Analysis: Price versus Area, D, Area*D The regression equation is Price = Area D Area*D Predictor Coef SE Coef T P Constant Area D Area*D S = R-Sq = 93.3% R-Sq(adj) = 93.2% Samtliga variabler är signifikanta och vi har en mycket bra förklaringsgrad

Hur blir nu tolkningen av denna modell?
Predictor Coef SE Coef T P Constant Area D Area*D Hur blir nu tolkningen av denna modell? Även här skiljer vi på två fall som ger två olika regressionssamband mellan pris och bostadsyta: 1) D = 0  2) D = 1 

Vi får alltså olika tolkningar av bostadsytans betydelse beroende på om det är fastigheter med högst 6 rum eller fastigheter med mer än 6 rum. Högst 6 rum: Priset ökar med i genomsnitt 7454 dollar då bostadsytan ökar med 1000 ft2 Mer än 6 rum: Priset ökar med i genomsnitt 8403 dollar då bostadsytan ökar med 1000 ft2 Skärningen med y-axeln tolkas ej då detta bara är ett nivåjusterande värde. Notera hur koefficienten för bostadsyta kan ändras mellan olika modeller. I detta fall genomsnitträknar vi över litet större klasser av lägenheter, men får mycket bra förklaringsgrad.

Indikatorvariabler används alltså för att dela in ett material i olika klasser.
Indelningen ger upphov till olika regressionssamband i de övriga variablerna. Dessa kan ha olika lutningar och intercept (skärningar med y-axel) om vi inför indikatorvariabeln själv och dess samspelstermer med övriga variabler. Vi kan givetvis använda indikatorvariabeln för att skapa olika regressionssamband mellan y och flera av de andra x-variablerna. Det blir då inte längre olika regressionslinjer utan olika plan, hyperplan etc.

Partiellt F –test Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs. sådant som ingår i wellpapp och kartonger (facktermen inom svensk pappersproduktion är ”floating”)? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)

Insamlade månadsvisa data:
MONTH COST PAPER MACHINE OVERHEAD LABOR 1 1102 550 218 112 325 2 1008 502 199 99 301 3 1227 616 249 126 376 4 1395 701 277 143 419 … 27 1388 704 281 142 429

Grafisk illustration av ev. samband:

Hög förklaringsgrad, men alla x-variabler är ej signifikanta
Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: MTB > regress c1 4 c2-c5 Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = PAPER MACHINE OVERHEAD LABOR Predictor Coef SE Coef T P Constant PAPER MACHINE OVERHEAD LABOR S = R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta

Analysis of Variance Source DF SS MS F P Regression Residual Error Total Source DF Seq SS PAPER MACHINE OVERHEAD LABOR F-testet anger att minst en av de ingående x-variablerna har betydelse. t-testen (på föreg. sida) visar att de två första har det, men inte de två andra.

Kan man vara säker på det? Pröva denna modell:
Analysen antyder att det kanske räcker med modellen där COST förklaras av PAPER och MACHINE. Kan man vara säker på det? Pröva denna modell: MTB > regress c1 2 c2 c3 Regression Analysis: COST versus PAPER, MACHINE The regression equation is COST = PAPER MACHINE Predictor Coef SE Coef T P Constant PAPER MACHINE S = R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

Hur kan vi jämföra dessa modeller?
Den fullständiga modellen kan skrivas: y=  0 + 1 · x1  2· x2 + 3· x3 + 4· x4 +  där x1=PAPER, x2=MACHINE, x3=OVERHEAD, x4=LABOR Den reducerade modellen kan skrivas y=  0 + 1 · x1  2· x2 +  Om vi vill testa om någon av x3 och x4 skall läggas till blir nollhypotesen: H0: 3= 4=0

Som testfunktion kan vi använda
där SSER=Residualkvadratsumman (SSE) i den Reducerade modellen och SSEC=Residualkvadratsumman i den fullständiga modellen (Complete) k=Antal förklaringsvariabler i den fullständiga modellen g=Antal förklaringsvariabler i den reducerade modellen Om H0 är sann får F en F-fördelning med k-g och n-k-1 frihetsgrader och vi kan alltså jämföra värdet på F med F[](k-g,n-k-1)

Från utskrifterna kan vi nu ta SSER och SSEC :
Fullständig modell: Analysis of Variance Source DF SS MS F P Regression Residual Error Total Reducerad modell: Regression Residual Error SSEC SSER

 F[0.05](2,22)=3.44>0.799  H0 kan ej förkastas! Ingen av x3 och x4 skall alltså vara med i modellen. Observera dock att detta inte är självklart bara för att t-testen för dessa variabler blev icke-signifikanta i den fullständiga modellen! Testmetoden kallas Partiellt F-test eftersom vi i ett test testar om en del (partition) av modellen skall uteslutas.

Förenklad beräkning i vissa sammanhang:
Vi vet att SST=SSE+SSR  SSE=SST–SSR  SSER –SSEC = SSRC –SSRR (fullständig utredning ges i instruktionen till Datorövning 2) Det går alltså att använda regressionskvadratsummorna istället för residualkvadratsummorna.

Vad är vitsen med detta? Jo, vi vet sen tidigare att en regressionskvadratsumma kan beräknas sekventiellt i den ordning förklaringsvariablerna matas in. I den fullständiga modellen blir: SSRC=SSR(PAPER) + SSR(MACHINE | PAPER) + + SSR(OVERHEAD | PAPER,MACHINE) + + SSR(LABOR | PAPER,MACHINE,OVERHEAD) I den reducerade modellen blir: SSRR=SSR(PAPER) + SSR(MACHINE | PAPER)  SSRC – SSRR= SSR(OVERHEAD | PAPER,MACHINE) +

och F=(196/2)/(2699/22)=0.799 som tidigare.
Eftersom vi matat in förklaringsvariablerna i just denna ordning kan vi ta samtliga sekventiella kvadratsummor från utskriften i den fullständiga modellen: Analysis of Variance Source DF SS MS F P Regression Residual Error Total Source DF Seq SS PAPER MACHINE OVERHEAD LABOR SSRC – SSRR =3+193=196 och F=(196/2)/(2699/22)= som tidigare. SSR(PAPER) SSR(MACHINE | PAPER) SSR(OVERHEAD | PAPER,MACHINE) SSR(LABOR | PAPER,MACHINE,OVERHEAD)

AJÅ använder en annan formelvariant:
r i denna formel står för k – g (och alltså inte någon korrelationskoefficient!) Att formlerna är identiska ser vi genom att skriva om (utveckla) ovanstående

Något om transformationer
Antag att vi upptäcker i en residualanalys att slumpvariansen ( 2) ej är konstant. Detta ser man alltså i ett diagram där residualerna plottas mot anpassade värden (fitted values). T ex var detta kanske fallet i Datorövning 2:

Eftersom alla utvecklade analyser (med t-test, F-test och prognosintervall) bygger på antagandet om konstant varians  Trubbel med tolkningar av den skattade modellen. Ofta kan man lösa detta problem genom att göra en s k transformation av y-värdena. Följande grupp av transformationer är vanligast: Det vanligaste valet av  är 0.5, vilket innebär att Näst vanligast är nog att beräkna ln(y) (alternativet då =0)

Kvadratrotstransformationen kräver att y är  0, men så är ofta fallet för just ekonomiskt anknutna data. Logaritmtransformationen kräver att y > 0 och kan ge problem för vissa variabler som ibland faktiskt är just 0. Andra värden kan också väljas på  , men är mer sällsynta och definitivt ovanliga i en sådan här kurs. Vi prövar nu att 1) Beräkna kvadratroten ur variabeln Total$ i Datorövning 2 och använda den resulterande variabeln som vårt nya y. ´2) Logaritmera variabeln Total$ och använda den resulterande variabeln som vårt nya y.

1) Kvadratrotstransformationen
I Minitab gör vi detta med MTB > let c14=sqrt(c2) MTB > name c14 ’rot_Total$’ Vi anpassar sedan modellen där rot_Total$ förklaras av Acreage, 1stFArea och FullBath. Vi beräknar samtidigt den prognos, som gjordes i datorövningen, dvs för Acreage=1.600, 1stFArea=2000 och FullBath=2

Regression Analysis: rot_Total$ versus Acreage, 1stFArea, FullBath
The regression equation is rot_Total$ = Acreage stFArea FullBath 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P Constant Acreage 1stFArea FullBath S = R-Sq = 77.9% R-Sq(adj) = 77.0% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

Anpassningen blir ungefär lika bra som tidigare.
Predicted Values for New Observations New Obs Fit SE Fit % CI % PI ( , ) ( , ) Values of Predictors for New Observations New Obs Acreage 1stFArea FullBath Anpassningen blir ungefär lika bra som tidigare. Fundera dock vad det är vi har gjort prognos för. Hur skall vi ”transformera tillbaka” prognosen och intervall gränserna till den riktiga skalan hos y?

Det aktuella residualdiagrammet blir:
Jämför med det tidigare: Ser knappast ut att vara mindre strutmönstrat nu än förut.

1) Logaritmtransformationen
I Minitab gör vi detta med MTB > let c15=loge(c2) MTB > name c14 ’log_Total$’ Observera att den naturliga logaritmen ( ln(y) ) erhålls med kommandot loge. Vill man istället beräkna 10-logaritmen ( lg(y) ) görs detta med kommandot logt. Vilken logaritm man använder spelar egentligen mindre roll, men den naturliga logaritmen är den som matematiskt passar in när transformationen generellt definieras som

I samband med att vi inför logaritmisk transformation kan det vara bra att repetera logaritmlagarna:
Dessa gäller oavsett om det är ln eller lg som används. Det finns också formler för att räkna om ln till lg och vice versa: Vi ser alltså att valet av logaritm är bara en skalfråga. Ur transformationssynvinkel är det ingen skillnad.

Acreage=1.600, 1stFArea=2000 och FullBath=2
Vi anpassar nu modellen där log_Total$ förklaras av Acreage, 1stFArea och FullBath. Vi beräknar även här den prognos, som gjordes i datorövningen, dvs för Acreage=1.600, 1stFArea=2000 och FullBath=2 Regression Analysis: log_Total$ versus Acreage, 1stFArea, FullBath The regression equation is log_Total$ = Acreage stFArea FullBath 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P Constant Acreage 1stFArea FullBath

S = R-Sq = 75.3% R-Sq(adj) = 74.3% Analysis of Variance Source DF SS MS F P Regression Residual Error Total : Predicted Values for New Observations New Obs Fit SE Fit % CI % PI ( , ) ( , ) Även här måste vi tänka på hur vi skall tillbakatransformera prognosen och intervall- gränserna.

Det aktuella residualdiagrammet blir:
Jämför med de tidigare: Ej transformerad y: Rottransformerad y: Ser faktiskt ut att bli litet bättre!

Kvadratisk regression, forts.

Liknande presentationer

En presentation över ämnet: "Kvadratisk regression, forts."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Kvadratisk regression, forts.

Liknande presentationer

En presentation över ämnet: "Kvadratisk regression, forts."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss