Kvadratisk regression, forts.

Slides:

Advertisements

Liknande presentationer

PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.

Advertisements

PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.

Talföljder formler och summor

X-mas algebra Är du redo? Klicka!!.

Andragradsfunktioner & Andragradsekvationer

Icke-linjära modeller:

En genomgång av spelet: Dubbelkrig-Grön

F3 Matematikrep Summatecknet Potensräkning Logaritmer Kombinatorik.

Ellära Fysik 1 / A Översiktlig beskrivning av en del av innehållet i Ellära – Fysik A För djupare studier hänvisar jag till kurslitteratur som finns.

Klusterurval, forts..

Marknaden – ett enkelt exempel Varian kap 1

Hur bra är modellen som vi har anpassat?

Numeriska beräkningar i Naturvetenskap och Teknik

Funktioner och programorganisation

Regressions- och tidsserieanalys

Föreläsning 7 Analys av algoritmer T(n) och ordo

FL10 732G81 Linköpings universitet.

Inferens om en ändlig population Sid

Linda Wänström och Elisabet Nikolic (Karl Wahlin)

Antag att följande värden hos kapitalet har gällt:

Max start-guide Liten och väldigt snabbt ihopkastad.

Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.

Chitvå-test Regression forts.

Grundläggande programmering

Diskreta, deterministiska system Projekt 1.2; Vildkatt

Centrala Gränsvärdessatsen:

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

Multipel regressionsanalys

Logikprogrammering 21/10 Binära träd

Binomialsannolikheter ritas i ett stolpdiagram

Egenskaper för punktskattning

1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant

Multipel linjär regressionsanalys

Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.

Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.

Hur bra är modellen som vi har anpassat?

y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε

Icke-linjära modeller:

Kvadratsummeuppdelning/Variansanalys

Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.

Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.

Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.

Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.

Några allmänna räkneregler för sannolikheter

Regressions- och tidsserieanalys

VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:

1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.

Tidsserieanalys Exempel:

1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.

Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.

Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.

Modell för konsumtionen i Sverige Från Baudins kompendium.

Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.

1 Icke-linjär regression Sid (i kapitel 16.1)

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.

En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.

1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.

Regression Har långa högre inkomst?. Världsrekord på engelska milen.

Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

Lite matterepetition Räknesätten, bråk, förkorta, parenteser

Icke-linjära modeller:

Multipel regression och att bygga (fungerande) modeller

Trender och fluktuationer

Relation mellan variabler – samvariation, korrelation, regression

Presentationens avskrift:

Kvadratisk regression, forts. Vi fortsätter med materialet om fastigheter. Tidigare föreslog vi som en tänkbar modell y=β0 + β3·x3 + β5·x32 + ε Vari ligger tanken att just använda en kvadratisk term? Det inses att priset knappast kan öka helt linjärt med antal rum. För många rum i en fastighet gör den ointressant för de flesta hushåll.  Priset borde ”mattas av” då rummen blir för många

Det är fullt tänkbart att denna ”avmattning” kan ha följande utseende: …och då kan en andragradskurva vara en lämplig anpassning. Notera dock att anpassningen bara kan göras i det rumsintervall som existerar. Det finns ingen anledning att tro att priset skulle vända och gå ned till 0 så småningom.

Varför y=β0 + β3·x3 + β5·x32 + ε och inte bara y=β0 + β5·x32 + ε ? Med enbart x32 med i modellen skulle vi försöka att anpassa följande typ av samband: …ty renodlade x2-kurvor har sitt max/min-värde då x=0 Med en x-term med i modellen tillåts max (el. min) att hamna på annat ställe.

Kombination av en andragradskurva med andra variabler. Vi kan nu tänka oss att kombinera x3 och x32 med andra variabler i en modell. Pröva först modellen y=β0 + β1·x1 + β3·x3 + β5·x32 + ε  Regression Analysis: Price versus Area, Rooms, Rooms_sq The regression equation is Price = - 15812 + 49.3 Area + 22544 Rooms - 1529 Rooms_sq Predictor Coef SE Coef T P Constant -15812 34481 -0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -1529.1 613.6 -2.49 0.014 S = 29528 R-Sq = 50.7% R-Sq(adj) = 49.6%

b1, b3 och b5 är alla signifikant  0 Predictor Coef SE Coef T P Constant -15812 34481 -0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -1529.1 613.6 -2.49 0.014 b1, b3 och b5 är alla signifikant  0 Hur kan vi tolka värdena på dessa koefficienter? Såväl b1 som b3 är positiva, vilket är i linje med hur de enskilda sambanden verkar se ut. b5 är negativ och detta innebär att vi har en kvadratisk form med max-punkt. Hade koefficienten varit positiv hade vi haft en min-punkt. Om vi fixerar x3 dvs. antal rum till ett visst värde (spelar ingen roll vilket) tolkas värdet b1=49.326 som att priset ökar med i genomsnitt c:a 49 dollar då bostadsytan ökar med 1 ft2. Denna tolkning kan förstås skalas upp och blir liktydig med att priset ökar med c:a 49326 dollar då bostadsytan ökar med 1000 ft2. Om vi istället fixerar bostadsytan till ett visst värde finns inte samma enkla tolkning av b3 och b5 p g a att sambandet med x3 ej är rent linjärt.

Så var inte fallet i modellen med bara x1 och x3. Predictor Coef SE Coef T P Constant -15812 34481 -0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -1529.1 613.6 -2.49 0.014 Notera att i denna modell blir alltså b3 signifikant skild från 0 (alt. variabeln x3 ingår signifikant i modellen/är signifikant). Så var inte fallet i modellen med bara x1 och x3. Den kvadratiska termen medför alltså förutom sin egen förklaring även att sambandet mellan y och x3 som helhet blir tydligare. Vi kan också fundera på hur bostadsyta och antal rum skulle kunna samspela i att förklara prisets variation. En bostad med mycket stor yta, men endast ett rum skulle förmodligen vara mindre attraktiv än en bostad med måttligt stor yta men fler rum.

Vi bildar då nya variabeln x1·x3 och analyserar modellen Denna effekt kan testas i regressionsmodellen genom att införa en samspelsterm. Vi bildar då nya variabeln x1·x3 och analyserar modellen y=β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε  MTB > let c7=c2*c4 MTB > name c7 'Area*Rooms' Regression Analysis: Price versus Area, Rooms, Rooms_sq, Area*Rooms The regression equation is Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms_sq - 14.0 Area*Rooms Predictor Coef SE Coef T P Constant 862 34085 0.03 0.980 Area 162.78 39.23 4.15 0.000 Rooms -9248 14262 -0.65 0.518 Rooms_sq 2161 1390 1.56 0.122 Area*Roo -14.002 4.759 -2.94 0.004 S = 28783 R-Sq = 53.4% R-Sq(adj) = 52.2%

Det kvadratiska sambandet ”tas över” av samspelstermen. Här får vi alltså en annan bild. Jämförelse med den föregående modellen: y=β0 + β1·x1 + β3·x3 + β5·x32 + ε Predictor Coef SE Coef T P Constant -15812 34481 -0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -1529.1 613.6 -2.49 0.014 I den nya modellen upphör b3 och b5 att vara sign. skilda från 0. Istället blir b6 det. Det kvadratiska sambandet ”tas över” av samspelstermen. y=β0 + β1·x1 + β3·x3 + β5·x32 + β6 ·x1·x3 + ε Predictor Coef SE Coef T P Constant 862 34085 0.03 0.980 Area 162.78 39.23 4.15 0.000 Rooms -9248 14262 -0.65 0.518 Rooms_sq 2161 1390 1.56 0.122 Area*Roo -14.002 4.759 -2.94 0.004

Räcker det då med modellen y=β0 + β1·x1 + β6 ·x1·x3 + ε ? Regression Analysis: Price versus Area, Area*Rooms The regression equation is Price = 42108 + 84.7 Area - 3.07 Area*Rooms Predictor Coef SE Coef T P Constant 42108 12364 3.41 0.001 Area 84.70 16.08 5.27 0.000 Area*Roo -3.066 1.349 -2.27 0.024 S = 29533 R-Sq = 50.3% R-Sq(adj) = 49.6% Tydligen! Förklaringsgraden ändras något men är inte nämnvärt sämre än i den första av de tre modellerna.

Blir denna modell enklare att tolka? The regression equation is Price = 42108 + 84.7 Area - 3.07 Area*Rooms Predictor Coef SE Coef T P Constant 42108 12364 3.41 0.001 Area 84.70 16.08 5.27 0.000 Area*Roo -3.066 1.349 -2.27 0.024 Blir denna modell enklare att tolka? Numeriskt: Nej , men konceptmässigt kan det vara enklare att förstå att bostadsyta och antal rum samverkar när det gäller prissättning. Den kvadratiska modellen tar egentligen bara hand om sambanden mellan de två olika förklaringsvariablerna var för sig. Samspel kallas på engelska interaction och på svenska säger man också ibland att variablerna interagerar.

Följande graf kan kanske illustrera hur det förhåller sig: För bostäder med 3, 4, 5 och 6 rum ter sig sambandet med bostadsyta vara ganska tydligt linjärt. För bostäder med 7 rum eller fler börjar det spreta ordentligt och det linjära sambandet är inte längre tydligt.

Man skulle t ex kunna tänka sig att det finns olika regressionslinjer mellan pris och bostadsyta beroende på vad antalet rum är.

En modell med en samspelsterm kan också ses som ett specialfall av kvadratisk regression. Det gäller nämligen att det kvadratiska kan vara i fler än en variabel. En fullständig kvadratisk modell i två variabler, x1 och x2 (dvs. vilka som helst, inte just motsvarande variabler i vårt datamaterial) ser ut på följande sätt: y=β0 + β1·x1 + β2·x2 + β3·x12 + β4·x22 + β5· x1·x2 + ε Genom att plocka bort vissa av termerna i denna modell erhålls olika undermodeller där vissa fortfarande kan sägas tillhöra gruppen av kvadratiska regressionsmodeller.

Kvalitativa variabler Kvalitativa variabler har inte numeriskt tolkningsbara värden utan värdena är koder för olika klasser av observationer. Exempel är en variabel som är 0 för män och 1 för kvinnor. Ett annat exempel är en variabel som är 1 för småföretag, 2 för mellanstora företag och 3 för stora företag. För att kunna använda kvalitativa variabler i regressionsanalys krävs att de görs om till s k indikatorvariabler eller dummyvariabler. (Andra namn är 0/1-variabler resp. dikotoma variabler)

En kvalitativ variabel som bara har två värden behöver egentligen inte göras om, men ur tolkningssynpunkt är det bra om värdena transformeras till 0 och 1. Exempel: Kön kodas med 0 och 1. Vad som är 0 resp. 1 spelar förstås ingen roll. Om vi har en kod som har värdet 1 för små företag och 2 för större och stora företag görs värdena enkelt om till 0 resp. 1 En kvalitativ variabel med fler än två värden måste göras om till flera indikatorvariabler.

Exempel: Företag antas vara kodade med 1 för små företag, 2 för mellanstora företag och 3 för stora företag. Denna variabel görs om till  Företagstyp Ursprunglig kod D1 D2 Små 1 Mellanstora 2 Stora 3 Grundregel: Om den kvalitativa variabeln har m olika koder eller värden (kallas också nivåer) skall m1 indikatorvariabler användas.

Minitab har funktioner för att manuellt koda om en variabels värden till andra värden skapa indikatorvariabler för att ersätta en kvalitativ variabel Exempel: Antag att vi i kolumnen C1 har en kvalitativ variabel med värdena 1, 2, 3, 4 och 5. Med kommandot MTB > indicator c1 c2 c3 c4 c5 c6 skapas fem indikatorvariabler (C2-C6), en för varje värde hos C1 I C2 är alltså värdet 1 för de rader där värdet i C1 är 1 och 0 i övriga rader I C3 är värdet 1 för de rader där värdet i C1 är 2 och 0 i övriga rader osv. I regressionen används sedan fyra av dessa fem indikatorvariabler

Vi återvänder nu till vårt datamaterial om fastigheter. Antag att vi vill dela in fastigheterna i klasserna fastigheter med högst 6 rum fastigheter med fler än 6 rum För att göra detta kan vi skapa en indikatorvariabel som är =0 för fastigheter med högst 6 rum och 1 för övriga, dvs

Vi behöver alltså koda om variabeln x3 i Minitab Vi behöver alltså koda om variabeln x3 i Minitab. Detta kan göras med kommandon eller via menyer. Vi visar först med menyer: ManipCodeNumeric to Numeric… Ny kolumn anges här Värdena i x3 går från 3 till 13

Med kommandon hade vi gett följande: MTB > code (3:6) 0 (7:13) 1 c4 c8 (Observera mellanslagen) Den nya kolumnen ges här namnet ”D” (för att få samstämmighet med det införda variabelnamnet) Vi prövar nu följande regressionsmodell y=β0 + β1·x1 + β7·D + ε Regression Analysis: Price versus Area, D The regression equation is Price = 65668 + 44.2 Area + 10544 D Predictor Coef SE Coef T P Constant 65668 8072 8.14 0.000 Area 44.157 5.445 8.11 0.000 D 10544 7098 1.49 0.140 S = 29824 R-Sq = 49.3% R-Sq(adj) = 48.6%

Hur kan vi tolka denna analys? Predictor Coef SE Coef T P Constant 65668 8072 8.14 0.000 Area 44.157 5.445 8.11 0.000 D 10544 7098 1.49 0.140 Indikatorvariabeln D blir inte signifikant, men vi låter den kvarstå tills vidare. Hur kan vi tolka denna analys? D kommer att dela in materialet i två delar och ger faktiskt två skattade regressionsmodeller för sambandet mellan pris och bostadsyta: 1) D = 0  2) D = 1 

Parallella linjer, med olika skärning med y-axeln.

För att inte tvingas in till parallella linjer inför vi nu en samspelsterm, x1·D , i modellen: y=β0 + β1·x1 + β7·D + β8·x1·D + ε Regression Analysis: Price versus Area, D, Area*D The regression equation is Price = 110370 + 7.45 Area - 117259 D + 0.949 Area*D Predictor Coef SE Coef T P Constant 110370 3269 33.76 0.000 Area 7.454 2.306 3.23 0.002 D -117259 4856 -24.15 0.000 Area*D 0.94940 0.03055 31.07 0.000 S = 10846 R-Sq = 93.3% R-Sq(adj) = 93.2% Samtliga variabler är signifikanta och vi har en mycket bra förklaringsgrad

Hur blir nu tolkningen av denna modell? Predictor Coef SE Coef T P Constant 110370 3269 33.76 0.000 Area 7.454 2.306 3.23 0.002 D -117259 4856 -24.15 0.000 Area*D 0.94940 0.03055 31.07 0.000 Hur blir nu tolkningen av denna modell? Även här skiljer vi på två fall som ger två olika regressionssamband mellan pris och bostadsyta: 1) D = 0  2) D = 1 

Vi får alltså olika tolkningar av bostadsytans betydelse beroende på om det är fastigheter med högst 6 rum eller fastigheter med mer än 6 rum. Högst 6 rum: Priset ökar med i genomsnitt 7454 dollar då bostadsytan ökar med 1000 ft2 Mer än 6 rum: Priset ökar med i genomsnitt 8403 dollar då bostadsytan ökar med 1000 ft2 Skärningen med y-axeln tolkas ej då detta bara är ett nivåjusterande värde. Notera hur koefficienten för bostadsyta kan ändras mellan olika modeller. I detta fall genomsnitträknar vi över litet större klasser av lägenheter, men får mycket bra förklaringsgrad.

Indikatorvariabler används alltså för att dela in ett material i olika klasser. Indelningen ger upphov till olika regressionssamband i de övriga variablerna. Dessa kan ha olika lutningar och intercept (skärningar med y-axel) om vi inför indikatorvariabeln själv och dess samspelstermer med övriga variabler. Vi kan givetvis använda indikatorvariabeln för att skapa olika regressionssamband mellan y och flera av de andra x-variablerna. Det blir då inte längre olika regressionslinjer utan olika plan, hyperplan etc.

Partiellt F –test Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs. sådant som ingår i wellpapp och kartonger (facktermen inom svensk pappersproduktion är ”floating”)? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)

Insamlade månadsvisa data: MONTH COST PAPER MACHINE OVERHEAD LABOR 1 1102 550 218 112 325 2 1008 502 199 99 301 3 1227 616 249 126 376 4 1395 701 277 143 419 … 27 1388 704 281 142 429

Grafisk illustration av ev. samband:

Hög förklaringsgrad, men alla x-variabler är ej signifikanta Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: MTB > regress c1 4 c2-c5 Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 MACHINE 2.4710 0.4656 5.31 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030 -1.26 0.223 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta

Analysis of Variance Source DF SS MS F P Regression 4 2271423 567856 4629.17 0.000 Residual Error 22 2699 123 Total 26 2274122 Source DF Seq SS PAPER 1 2255666 MACHINE 1 15561 OVERHEAD 1 3 LABOR 1 193 F-testet anger att minst en av de ingående x-variablerna har betydelse. t-testen (på föreg. sida) visar att de två första har det, men inte de två andra.

Kan man vara säker på det? Pröva denna modell: Analysen antyder att det kanske räcker med modellen där COST förklaras av PAPER och MACHINE. Kan man vara säker på det? Pröva denna modell: MTB > regress c1 2 c2 c3 Regression Analysis: COST versus PAPER, MACHINE The regression equation is COST = 59.4 + 0.949 PAPER + 2.39 MACHINE Predictor Coef SE Coef T P Constant 59.43 19.64 3.03 0.006 PAPER 0.9489 0.1101 8.62 0.000 MACHINE 2.3864 0.2101 11.36 0.000 S = 10.98 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression 2 2271227 1135613 9413.48 0.000 Residual Error 24 2895 121 Total 26 2274122

Hur kan vi jämföra dessa modeller? Den fullständiga modellen kan skrivas: y=  0 + 1 · x1  2· x2 + 3· x3 + 4· x4 +  där x1=PAPER, x2=MACHINE, x3=OVERHEAD, x4=LABOR Den reducerade modellen kan skrivas y=  0 + 1 · x1  2· x2 +  Om vi vill testa om någon av x3 och x4 skall läggas till blir nollhypotesen: H0: 3= 4=0

Som testfunktion kan vi använda där SSER=Residualkvadratsumman (SSE) i den Reducerade modellen och SSEC=Residualkvadratsumman i den fullständiga modellen (Complete) k=Antal förklaringsvariabler i den fullständiga modellen g=Antal förklaringsvariabler i den reducerade modellen Om H0 är sann får F en F-fördelning med k-g och n-k-1 frihetsgrader och vi kan alltså jämföra värdet på F med F[](k-g,n-k-1)

Från utskrifterna kan vi nu ta SSER och SSEC : Fullständig modell: Analysis of Variance Source DF SS MS F P Regression 4 2271423 567856 4629.17 0.000 Residual Error 22 2699 123 Total 26 2274122 Reducerad modell: Regression 2 2271227 1135613 9413.48 0.000 Residual Error 24 2895 121 SSEC SSER

 F[0.05](2,22)=3.44>0.799  H0 kan ej förkastas! Ingen av x3 och x4 skall alltså vara med i modellen. Observera dock att detta inte är självklart bara för att t-testen för dessa variabler blev icke-signifikanta i den fullständiga modellen! Testmetoden kallas Partiellt F-test eftersom vi i ett test testar om en del (partition) av modellen skall uteslutas.

Förenklad beräkning i vissa sammanhang: Vi vet att SST=SSE+SSR  SSE=SST–SSR  SSER –SSEC = SSRC –SSRR (fullständig utredning ges i instruktionen till Datorövning 2) Det går alltså att använda regressionskvadratsummorna istället för residualkvadratsummorna.

Vad är vitsen med detta? Jo, vi vet sen tidigare att en regressionskvadratsumma kan beräknas sekventiellt i den ordning förklaringsvariablerna matas in. I den fullständiga modellen blir: SSRC=SSR(PAPER) + SSR(MACHINE | PAPER) + + SSR(OVERHEAD | PAPER,MACHINE) + + SSR(LABOR | PAPER,MACHINE,OVERHEAD) I den reducerade modellen blir: SSRR=SSR(PAPER) + SSR(MACHINE | PAPER)  SSRC – SSRR= SSR(OVERHEAD | PAPER,MACHINE) +

och F=(196/2)/(2699/22)=0.799 som tidigare. Eftersom vi matat in förklaringsvariablerna i just denna ordning kan vi ta samtliga sekventiella kvadratsummor från utskriften i den fullständiga modellen: Analysis of Variance Source DF SS MS F P Regression 4 2271423 567856 4629.17 0.000 Residual Error 22 2699 123 Total 26 2274122 Source DF Seq SS PAPER 1 2255666 MACHINE 1 15561 OVERHEAD 1 3 LABOR 1 193 SSRC – SSRR =3+193=196 och F=(196/2)/(2699/22)=0.799 som tidigare. SSR(PAPER) SSR(MACHINE | PAPER) SSR(OVERHEAD | PAPER,MACHINE) SSR(LABOR | PAPER,MACHINE,OVERHEAD)

AJÅ använder en annan formelvariant: r i denna formel står för k – g (och alltså inte någon korrelationskoefficient!) Att formlerna är identiska ser vi genom att skriva om (utveckla) ovanstående

Något om transformationer Antag att vi upptäcker i en residualanalys att slumpvariansen ( 2) ej är konstant. Detta ser man alltså i ett diagram där residualerna plottas mot anpassade värden (fitted values). T ex var detta kanske fallet i Datorövning 2:

Eftersom alla utvecklade analyser (med t-test, F-test och prognosintervall) bygger på antagandet om konstant varians  Trubbel med tolkningar av den skattade modellen. Ofta kan man lösa detta problem genom att göra en s k transformation av y-värdena. Följande grupp av transformationer är vanligast: Det vanligaste valet av  är 0.5, vilket innebär att Näst vanligast är nog att beräkna ln(y) (alternativet då =0)

Kvadratrotstransformationen kräver att y är  0, men så är ofta fallet för just ekonomiskt anknutna data. Logaritmtransformationen kräver att y > 0 och kan ge problem för vissa variabler som ibland faktiskt är just 0. Andra värden kan också väljas på  , men är mer sällsynta och definitivt ovanliga i en sådan här kurs. Vi prövar nu att 1) Beräkna kvadratroten ur variabeln Total$ i Datorövning 2 och använda den resulterande variabeln som vårt nya y. ´2) Logaritmera variabeln Total$ och använda den resulterande variabeln som vårt nya y.

1) Kvadratrotstransformationen I Minitab gör vi detta med MTB > let c14=sqrt(c2) MTB > name c14 ’rot_Total$’ Vi anpassar sedan modellen där rot_Total$ förklaras av Acreage, 1stFArea och FullBath. Vi beräknar samtidigt den prognos, som gjordes i datorövningen, dvs för Acreage=1.600, 1stFArea=2000 och FullBath=2

Regression Analysis: rot_Total$ versus Acreage, 1stFArea, FullBath The regression equation is rot_Total$ = 210 + 23.7 Acreage + 0.0799 1stFArea + 18.2 FullBath 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P Constant 210.49 14.60 14.42 0.000 Acreage 23.715 4.155 5.71 0.000 1stFArea 0.079929 0.009031 8.85 0.000 FullBath 18.195 4.596 3.96 0.000 S = 44.46 R-Sq = 77.9% R-Sq(adj) = 77.0% Analysis of Variance Source DF SS MS F P Regression 3 522225 174075 88.07 0.000 Residual Error 75 148242 1977 Total 78 670467

Anpassningen blir ungefär lika bra som tidigare. Predicted Values for New Observations New Obs Fit SE Fit 99.0% CI 99.0% PI 1 444.68 6.10 ( 428.57, 460.80) ( 326.08, 563.29) Values of Predictors for New Observations New Obs Acreage 1stFArea FullBath 1 1.60 2000 2.00 Anpassningen blir ungefär lika bra som tidigare. Fundera dock vad det är vi har gjort prognos för. Hur skall vi ”transformera tillbaka” prognosen och intervall gränserna till den riktiga skalan hos y?

Det aktuella residualdiagrammet blir: Jämför med det tidigare: Ser knappast ut att vara mindre strutmönstrat nu än förut.

1) Logaritmtransformationen I Minitab gör vi detta med MTB > let c15=loge(c2) MTB > name c14 ’log_Total$’ Observera att den naturliga logaritmen ( ln(y) ) erhålls med kommandot loge. Vill man istället beräkna 10-logaritmen ( lg(y) ) görs detta med kommandot logt. Vilken logaritm man använder spelar egentligen mindre roll, men den naturliga logaritmen är den som matematiskt passar in när transformationen generellt definieras som

I samband med att vi inför logaritmisk transformation kan det vara bra att repetera logaritmlagarna: Dessa gäller oavsett om det är ln eller lg som används. Det finns också formler för att räkna om ln till lg och vice versa: Vi ser alltså att valet av logaritm är bara en skalfråga. Ur transformationssynvinkel är det ingen skillnad.

Acreage=1.600, 1stFArea=2000 och FullBath=2 Vi anpassar nu modellen där log_Total$ förklaras av Acreage, 1stFArea och FullBath. Vi beräknar även här den prognos, som gjordes i datorövningen, dvs för Acreage=1.600, 1stFArea=2000 och FullBath=2 Regression Analysis: log_Total$ versus Acreage, 1stFArea, FullBath The regression equation is log_Total$ = 11.1 + 0.104 Acreage +0.000361 1stFArea + 0.0856 FullBath 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P Constant 11.0864 0.0710 156.06 0.000 Acreage 0.10432 0.02022 5.16 0.000 1stFArea 0.00036083 0.00004395 8.21 0.000 FullBath 0.08558 0.02237 3.83 0.000

S = 0.2164 R-Sq = 75.3% R-Sq(adj) = 74.3% Analysis of Variance Source DF SS MS F P Regression 3 10.6841 3.5614 76.07 0.000 Residual Error 75 3.5114 0.0468 Total 78 14.1955 : Predicted Values for New Observations New Obs Fit SE Fit 99.0% CI 99.0% PI 1 12.1461 0.0297 ( 12.0677, 12.2246) ( 11.5689, 12.7233) Även här måste vi tänka på hur vi skall tillbakatransformera prognosen och intervall- gränserna.

Det aktuella residualdiagrammet blir: Jämför med de tidigare: Ej transformerad y: Rottransformerad y: Ser faktiskt ut att bli litet bättre!