Kvadratsummeuppdelning/Variansanalys

Slides:

Advertisements

Liknande presentationer

Inferens om en population Sid

Advertisements

Talföljder formler och summor

Kap 1 - Algebra och linjära modeller

FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Klusterurval, forts..

Hur bra är modellen som vi har anpassat?

Numeriska beräkningar i Naturvetenskap och Teknik

Regressions- och tidsserieanalys

FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

FL10 732G81 Linköpings universitet.

FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

732G22 Grunder i statistisk metodik

Linda Wänström och Elisabet Nikolic (Karl Wahlin)

732G22 Grunder i statistisk metodik

F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)

Statistikens grunder, 15p dagtid

Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.

Antag att följande värden hos kapitalet har gällt:

Vad ingår kursen? i korta drag

Tillämpad statistik Naprapathögskolan

Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.

TÄNK PÅ ETT HELTAL MELLAN 1-50

Skattningens medelfel

Chitvå-test Regression forts.

2. Enkel regressionsanalys

Diskreta, deterministiska system Projekt 1.2; Vildkatt

Centrala Gränsvärdessatsen:

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

Multipel regressionsanalys

FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Binomialsannolikheter ritas i ett stolpdiagram

732G71 Statistik B Institution: IDA, avd. för statistik

Egenskaper för punktskattning

1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant

Multipel linjär regressionsanalys

Simulering Introduktion Exempel: Antag att någon kastar tärning

Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.

Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.

Hur bra är modellen som vi har anpassat?

Linjär regression föreläsning 9

Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.

y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + β5·x32 + ε

Normalfördelningen och centrala gränsvärdessatsen

Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)

Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.

Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.

Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.

Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.

Några allmänna räkneregler för sannolikheter

Regressions- och tidsserieanalys

732G22 Grunder i statistisk metodik

1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.

Kvadratisk regression, forts.

Tidsserieanalys Exempel:

1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.

Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

Modell för konsumtionen i Sverige Från Baudins kompendium.

Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

Regression Har långa högre inkomst?. Världsrekord på engelska milen.

Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

Multipel regression och att bygga (fungerande) modeller

Presentationens avskrift:

Kvadratsummeuppdelning/Variansanalys Låt dvs. ”råvariationen” bland y-värdena får ytterligare en beteckning (Square Sum of Total variation) Tidigare har vi sett att SST inte duger som bas för en skattning av 2

Man kan visa att dvs. SST kan delas upp i två kvadratsummor varav den ena är SSE. Den andra, betecknad SSR, innehåller den del av den totala variationen som inte är slump utan beror på regressionssambandet mellan y och x. SSR står för Square Sum of Regression och det svenska namnet är regressionskvadratsumma. I exemplet från föreläsning 1 (pizzarestaurangerna) är SST= 15730 och SSE=1530 (se föregående fö-underlag)  SSR=15730 – 1530 = 14200

Förklaringsgrad Den del av SST som utgörs av SSR , dvs. den del av den totala variationen som utgörs av regressionssambandet kallas förklaringsgrad och betecknas r2 , dvs. Ju högre förklaringsgrad, desto bättre lyckas vår skattade modell förklara variationen i data  Modellen kan anses vara bra. I exemplet med pizzarestaurangerna blir dvs. 90.3% av den totala variationen i y kan sägas förklaras av sambandet med x. Notera! I den enkla regressionsmodellen är förklaringsgraden = (korrelationskoefficienten)2 Däremot behöver inte r = kvadratroten ur r2. Det är den bara om sambandet är positivt! r är som tidigare också korrelationskoefficienten

F-test: Kvadratsummeuppdelningen SST=SSE+SSR kan användas till mer än bra förklaringsgrad. Tidigare har vi tagit upp begreppet frihetsgrader har n1 frihetsgrader ty om n1 av termerna i summan är kända så kan man räkna ut den n:e. Motsvarande argument  SSE har n2 frihetsgrader I kvadratsummeuppdelningen SST=SSE+SSR gäller att antalet frihetsgrader till vänster om likhetstecknet skall vara samma som till höger SSR har (n1)  (n2) = 1 frihetsgrad

Vi har tidigare definierat MSE=SSE/(n2) MSE är en medelkvadratsumma och erhålls alltså genom att dividera SSE med dess frihetsgrader Motsvarande definierar vi då MSR=SSR/1 (= SSR ) Betrakta åter hypotesprövningen H0: 1 =0 Ha: 1 0 Om H0 är sann kan man visa att kvoten MSR/MSE får en regelbunden sannolikhetsfördelning över alla tänkbara stickprov av data.

Fördelningen brukar kallas F-fördelning och har ofta följande utseende: Fördelningen kännetecknas av att den alltid är över positiva värden på x-axeln. (Just i vårt exempel med 1 frihetsgrad i SSR börjar den dock inte i 0)

Om nollhypotesen är sann skall vi alltså få ett värde på MSR/MSE som ligger väl i linje med denna fördelning. Om nollhypotesen inte är sann:  Det finns ett regressionssamband mellan y och x  Förklaringsgraden borde vara hyfsat hög vilket den blir om SSR utgör en stor del av SST. (SST=SSE+SSR )  Kvoten MSR/MSE borde bli högre än vad den är om inget regressionssamband finns.  Nollhypotesen bör förkastas om värdet hos MSR/MSE ligger ”långt ut” i den högra svansen av F-fördelningen

Man jämför alltså MSR/MSE med ett tabellvärde hämtat ur F-förd. F-fördelningen bestäms av frihetsgraderna hos de två kvadratsummorna, i exemplet med pizzarestaurangerna blir de 1 resp. 10 – 2 = 8 F1,8 -fördelning Vi får MSR = 14200/1= 14200 och MSE= 1530/8=191.25  MSR/MSE=14200/191.25  72.25

72.25 > 5.32  H0 förkastas på 5% nivå. Statistical table of F distribution, alpha = 0.05 http://www.statsoft.com/textbook/sttable.html#f05, 2007-01-22 Kritisk gräns blir  5.32 72.25 > 5.32  H0 förkastas på 5% nivå.

Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: Att förklara variationen i en intressant storhet med hjälp av en eller flera bakgrundsvariabler Att med information om bakgrundsvariablernas värden göra prognoser för utfallet av den intressanta storheten Syftena drar ibland åt olika håll: Ju fler bakgrundvariabler som inkluderas desto bättre förklaring erhålls (!!) Ju fler bakgrundsvariabler som används desto sämre prognoser erhålls (!!)  Studier av de enskilda variablerna krävs ur såväl matematisk/datamässig synvinkel som ur tillämpningsområdets synvinkel

Den generella modellen: Den intressanta storheten betecknas y . y antas innehålla slumpmässig variation  Ur statistisk synvinkel får vi att göra med Antalet bakgrundsvariabler antas vara k stycken och betecknas x1, x2,…, xk För att få en någorlunda enkel beskrivning antar vi att värdena hos alla bakgrundsvariabler är givna (dvs. utan slumpmässig variation) Bakgrundsvariablerna antas förklara E(y ) enligt en linjär modell:

Hur kommer då Var ( y ) in i bilden? Modellen för y (alltså inte E( y )) antas vara: där  är en slumpvariabel som varierar runt väntevärdet 0 med konstant varians 2 Observera alltså att denna varians är den varians som också y har. En mer detaljerad modell som beskriver storheten punkt för punkt är följande: Vi antar att vi har observationer på y och på varje bakgrundsvariabel i n punkter och numrerar dessa 1, 2, … , n. Vi utnyttjar då ett index eller subscript som betecknas i :

Litet mer om själva  : Varje i antas ha väntevärde 0 Varje i antas ha konstant varians  2 Varje i antas vara normalfördelad N(0, ) 1 , 2 ,…, n antas vara oberoende slumpvariabler Antagande 1 måste i princip alltid vara uppfyllt Om antagande 2 ej är uppfyllt krävs transformationer av data (se senare) Om antagande 3 ej är uppfyllt måste alternativa testmetoder (och konfidensintervall) konstrueras. Detta görs ej i denna kurs. Om antagande 4 ej är uppfyllt har vi ofta en situation med tidsberoende (se tidsserieanalysdelen)

Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Datamaterialet ingår bland exempeldatamängderna i Minitab och har följande beskrivning: Column Name Count Description Modell Översättning C1 Price 150 Price y pris C2 Area 150 Area in square feet x1 bostadsyta C3 Acres 150 Acres x2 tomtyta C4 Rooms 150 Number of rooms x3 antal rum C5 Baths 150 Number of baths x4 antal badrum Källa: Minitab 15\English\Sample Data\Student9\HOMES.MTW

Price (y) Area (x1) Acres (x2) Rooms (x3) Baths (x4) 179000 3060 0,7500 8 2,0 126500 1600 0,2600 8 1,5 134500 2000 0,7000 8 1,0 125000 1300 0,6500 5 1,0 142000 2000 0,7500 9 1,5 164000 1956 0,5000 8 2,5 146000 2400 0,4000 7 2,5 . . . . . . . . . . 165900 1840 1,1620 8 2,0

Pris mot bostadsyta Pris mot Tomtyta

Pris mot bostadsyta Pris mot tomtyta

Bostadsyta och Antal rum verkar vara två bakgrundsvariabler som förklarar y bra. Kan dessa kombineras i en modell?

Modell 1: Modellen anpassas på motsvarande sätt som vid enkel linjär regression, dvs vi minimerar med avseende på b0 , b1 och b3 . De därvid erhållna värdena på b0 , b1 och b3 utgör Minsta Kvadrat-skattningarna av parametrarna 0 , 1 och 3 Här går det dock inte att få några generella formler utan värdena räknas fram (med dator) i varje enskilt exempel.

Den anpassade modellen skrivs Vi har även här kvadratsummeuppdelningen SST = SSE + SSR , dvs och en skattning av  2 erhålls som Observera att vi här dividerar med n  (antal x-variabler)  1 . I den enkla linjära regression dividerade vi med n  2 och där var ju antal x-variabler = 1

Alternativt ”menyvägen” StatRegressionRegression… Analys av modellen i Minitab: MTB > regress c1 2 c2 c4 Alternativt ”menyvägen” StatRegressionRegression… x1 y x3 Anger att två x-variabler skall användas ”Response” är alltså y-variabeln. Kallas också responsvariabel på svenska eller ibland beroende variabel. ”Predictors” är bakgrundsvariablerna. Ett vanligare namn är förklaringsvariabler eller oberoende variabler. Namnen prediktorer resp. x-variabler förekommer också

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 64221 + 49.7 Area - 141 Rooms Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962 S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11

Source DF Seq SS Area 1 1.25271E+11 Rooms 1 2071358 Unusual Observations Obs Area Price Fit SE Fit Residual St Resid 1 3060 179000 215096 7953 -36096 -1.25 X 15 1296 127500 127332 9035 168 0.01 X 26 2400 265000 182452 5536 82548 2.80R 29 3500 141000 236671 7816 -95671 -3.30RX 36 2820 275000 203034 4964 71966 2.43R 46 2130 302000 168900 2784 133100 4.45R 50 3700 153500 246605 9003 -93105 -3.25RX 53 2790 179900 200981 11831 -21081 -0.76 X 61 1680 223000 146547 3986 76453 2.57R 87 1950 267000 160099 2941 106901 3.57R 98 2500 269900 187279 4261 82621 2.78R 107 600 72000 93603 7479 -21603 -0.74 X 120 2516 285000 188214 6326 96786 3.29R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence.

Vad är egentligen ”SE Coef” ? Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962 b0=64221, b1=49.673, b3=  141 Vad är egentligen ”SE Coef” ? Varje bj ( j = 0, 1, 3) är att se som utfallet av en slumpvariabel, ty för ett nytt datamaterial på samma variabler skulle en ny regressionsanalys ge andra värden. ”SE” står för Standard Error. Den svenska termen är medelfel och det står för den skattade standardavvikelsen hos variabeln bj . Beteckningen är ofta I enkel linjär regression finns generella formler för dessa standardavvikelser, t ex men i multipel linjär regression finns inga sådana enkla formler.

T ex får vi ett 95% konfidensintervall för 1 som För den intresserade: Formler kan ställas upp med hjälp av matrisalgebra, men då krävs att man har läst en matematikkurs om sådant. Vi litar istället på vad datorutskrifterna ger och i vårt exempel ser vi att Med hjälp av bj och kan vi nu bilda konfidensintervall för j och/eller genomföra t-test av enskilda värden hos j . T ex får vi ett 95% konfidensintervall för 1 som Notera att vi här har nk1 frihetsgrader som i vårt fall blir 150 2 1=147 Detta frihetsgradstal finns ej i AJÅ:s tabell, men kan ur Minitab fås till 1.9762 (Observera dock närheten till 1.96 ) Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962

Vi får då konfidensintervallet I konfidensintervallet kan vi t ex se att 1 inte skulle kunna vara 0, då intervallet ej omfattar detta värde. Alternativt kan detta göras genom formell hypotesprövning (på 5% nivå). Vi ställer då upp Testvariabel (testfunktion, teststorhet) blir här som skall jämföras med (eftersom testet är dubbelsidigt) Eftersom t > 1.9762 förkastas H0 Notera nu att värdet 6.62 faktiskt redan finns uträknat i utskriften under kolumnen ”T” Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962

Vad säger nu kolumnen ”P”? I denna kolumn redovisas det s k P-värdet för motsvarande t-test. P-värdet beräknas som sannolikheten att testvariabeln blir så stor som den är (eller större) under förutsättning att H0 är sann. I vårt fall skulle värdet beräknas som Observera alltså att vi räknar med såväl stora positiva som stora negativa värden. Detta beror på att testet i detta fall är dubbelsidigt. Beräkningen kan inte göras enkelt, p g a att det är just t-fördelningen som användas, men här som i många andra fall är det praktiskt att förlita sig på datorutskriften. Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962

I Minitab kan dock P-värdet också beräkna med kommandon: MTB > cdf -6.62 k1; SUBC> t 147. MTB > print k1 beräknar och ger resultatet 0.000000000. Resultatet blir förstås inte exakt 0, men så pass litet att Minitab:s format inte skriver ut de sista decimalerna. Eftersom t-fördelningen är symmetrisk runt 0 kan detta värde multipliceras med 2 för att få P-värdet. Resultatet blir förstås också det mycket litet och det är orsaken till att vi i kolumnen ”P” avläser värdet 0.000. När det står så kan vi alltså räkna med att P-värdet är < 0.0005 (ty då avrundas det till 0.000) Samma yta till vänster om strecket här… …som till höger om strecket här

Vi har alltså ingen anledning att förkasta den nollhypotesen. Vi ser nu att så fort P-värdet blir lägre än signifikansnivån (dvs.  ) så kan H0 förkastas. Detta är en enkel och snabb metod att utifrån en datorutskrift avgöra om en nollhypotes skall förkastas eller ej. T ex ser vi att P-värdet för dubbelsidigt test av nollhypotesen H0:3=0 är så pass högt som 0.962. Vi har alltså ingen anledning att förkasta den nollhypotesen. Detta bekräftas genom att värdet i kolumnen ”T”, dvs testvariabelns värde är 0.05 och detta faller ju inom intervallet (1.9762, 1.9762) som är tabellvärdena det skall jämföras med. Observera! Samma tabellvärde för alla t-test på 5% nivå i just denna analys Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Area 49.673 7.507 6.62 0.000 Rooms -141 2934 -0.05 0.962

(SSE tas från kolumnen ”SS”, ”E+11” betyder ”·1011 ”) Vad ger oss nu resten av utskriften? S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 s = 30047 är alltså skattningen av  . Den är förstås roten ur skattningen av  2 som erhålls som (SSE tas från kolumnen ”SS”, ”E+11” betyder ”·1011 ”) Detta värde finns dock uträknat med större noggrannhet under kolumnen ”MS” och är förstås MSE=902824574

S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 Roten ur 902824574 blir 30047.03935  30047 ”R-sq” står för R2 och är förklaringsgraden hos den skattade modellen. Den beräknas på samma sätt som vid enkel linjär regression men har en annan symbol här. Alltså Vad står då R för? Den kallas multipel korrelationskoefficient och uttrycker den ”samtidiga” korrelationen med y å ena sidan och x1 och x3 å den andra . Tolkningen kan kännas svår och tas inte upp i denna kurs.

S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 ”R-sq(adj)” står för justerad förklaringsgrad och tas upp senare i kursen. Kolumnen ”F” ger ett värde som kan misstänkas vara värdet hos en testvariabel precis som i enkel linjär regression. Detta är sant och testvariabeln beräknas även här som MSR/MSE. Skillnaden är att hypotesparet i detta fall är Om H0 inte förkastas innebär detta att ingen regression finns mellan y och dessa x-variabler.

Frihetsgraderna kan avläsas i kolumnen ”DF” (Degrees of Freedom) S = 30047 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 Vi kan även här använda P-värdet för att avgöra om testet är signifikant eller ej. Det mycket låga P-värde vi har ger då att nollhypotesen skall förkastas. Alternativt jämför vi testvariabelns värde (69.38) med ett tabellvärde ur en F-fördelning med frihetsgraderna 2 och 147 . Observera alltså att vi ökar till två frihetsgrader här jämfört med vid enkel linjär regression. Det beror på att det är två parametrar (1 och 3 ) som ingår i nollhypotesen. Frihetsgraderna kan avläsas i kolumnen ”DF” (Degrees of Freedom) Tabellvärdet för test på 5% nivå tas i detta fall fram med Minitab:s hjälp till 3.0576 och vi ser att 69.38 är långt mycket större än detta värde.

Utskrift från annan programvara I AJÅ (och på många andra ställen) kan man stöta på utskrift från det stora och välanvända programpaketet SAS. För vårt exempel skulle en SAS-utskrift kunna ha följande utseende: The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 1.252734E11 62636682991 69.38 <.0001 Error 147 1.327152E11 902824574 Corrected Total 149 2.579886E11 Root MSE 30047 R-Square 0.4856 Dependent Mean 153775 Adj R-Sq 0.4786 Coeff Var 19.53961

Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 64221 12766 5.03 <.0001 x1 1 49.67304 7.50702 6.62 <.0001 x3 1 -140.54127 2934.12098 -0.05 0.9619 SAS ger litet mer i sin utskrift och i litet annan ordning, men det skall dock vara relativt enkelt att identifiera de komponenter vi just tagit ur Minitab-utskriften. Notera att SAS använder litet andra rubriker på sina kolumner, dock.

Fler analyser av vårt datamaterial I enkel linjär regression visade vi hur man kan beräkna ett konfidensintervall för y|x0 , dvs. det förväntade eller genomsnittliga värdet hos y då x=x0 beräkna en prognos och ett prognosintervall för y i en ny punkt Dessa kan beräknas även i multipel regression, men inga enkla formler kan sättas upp (kräver också matrisalgebra). Principen är dock detsamma och vi kan här använda ”Distance value” som ingående term.

Ett konfidensintervall för beräknas som där och ”Distance value” tas i förekommande fall från datorutskrift Ett prognosintervall för y0 beräknas som

Vi begär dessa intervall (inklusive själva prognosen eller punktskattningen) vid Minitab-analysen. Antag t ex att vi vill göra en prognos för priset på en fastighet när bostadsytan är 3000 ft2 och antal rum är 6, dvs x01 = 3000 och x03 = 6, samt ett 95% konfidensintervall för och ett 95% prognosintervall för y0 MTB > regress c1 2 c2 c4; SUBC> predict 3000 6; SUBC> confidence 95. Menyvägen ser det istället ut på följande sätt: StatRegressionRegression…

Regression Analysis: Price versus Area, Rooms  Samma utskrift som tidigare Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6.00

Vi vet ju att s = 30047  Hur kan vi nu komma åt ”Distance value”? New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX Vi vet ju att s = 30047 

Jämförelse med utskriften: Värdet är ett mått på avståndet från den nya punkten till datamaterialets ”centrum”, men har i övrigt ingen särskild tolkning. Beskrivningen är en förenkling av en i övrigt ganska komplicerad matematisk beräkningsmetod. För att få det i utskriften beräknade prognosintervallet skulle vi nu kunna göra följande beräkning Jämförelse med utskriften: New Obs Fit SE Fit 95.0% CI 95.0% PI 1 212396 12307 ( 188076, 236717) ( 148229, 276564) XX Skillnaden beror på avrundningsfel (”0.168” är egentligen 0.167765311…)

Residualanalys Residualanalys blir mer betydelsefull när det kommer till multipel regression. Bra residualer är till god hjälp i bedömningen av en anpassad modell utöver t-test och F-test. Residualdiagram kan begäras i datoranalysen som Histogram för att checka normalfördelningsantagandet Normalfördelningsdiagram för att checka normalfördelningsantagandet Plott mot anpassade värden ( ) för att checka om variansen är konstant Plott i observationsordning för att checka oberoendeantagandet Plott mot en eller flera av x-variablerna för att checka om sambandet mellan y och en x-variabel är rent linjärt eller ej

(Diagrammen kommer vart och ett för sig men har samlats här)

x1 x3

…och hur skall diagrammen studeras? Punkterna skall ansluta bra till en rät linje åtminstone i mitten av diagrammet om residualerna skall anses vara normalfördelade. Inte så uppfyllt här Skall vara symmetriskt om residualerna skall anses vara normalfördelade Ev. högerskevt här

Punkterna skall utgöra ett jämnbrett band om variansen skall anses vara konstant. Här ser vi antydan till ett strutmönster (inritad med blå streck) Punkterna skall inte ha någon successiv följsamhet om residualerna skall anses vara oberoende. Här ser vi ingen sådan följsamhet  OK!

Punkterna skall inte uppvisa något mönster som antyder att ytterligare samband med resp. x-variabel finns kvar. Mönster: Krökning, rät linje etc. Svårt att se några mönster i just dessa två diagram

En mer begränsad residualplott:

Modell 2: y=β0 + β1·x1 + β2·x2 + ε Vi jämför nu test och residualanalys för några andra modeller på samma datamaterial Modell 2: y=β0 + β1·x1 + β2·x2 + ε x1 = Bostadsyta x2 = Tomtyta The regression equation is Price = 61100 + 46,2 Area + 7760 Acres Predictor Coef StDev T P Constant 61100 6566 9,30 0,000 Area 46,243 3,445 13,42 0,000 Acres 7760,0 907,2 8,55 0,000 S = 24552 R-Sq = 65,7% R-Sq(adj) = 65,2% Analysis of Variance Source DF SS MS F P Regression 2 1,69376E+11 84687891350 140,49 0,000 Residual Error 147 88612795585 602808133 Total 149 2,57989E+11 Bägge är signifikanta Minst en av x1 och x2 skall vara med Bättre R 2

Modell 3: (Samtliga förklaringsvariabler med) y=β0 + β1·x1 + β2·x2 + β3·x3 + β4·x4 + ε The regression equation is Price = 55204 + 30,9 Area + 7535 Acres + 823 Rooms + 14722 Baths Predictor Coef StDev T P Constant 55204 10145 5,44 0,000 Area 30,885 7,047 4,38 0,000 Acres 7535,2 883,6 8,53 0,000 Rooms 823 2330 0,35 0,724 Baths 14722 4334 3,40 0,001 S = 23770 R-Sq = 68,2% R-Sq(adj) = 67,4% Analysis of Variance Source DF SS MS F P Regression 4 1,76060E+11 44014953631 77,90 0,000 Residual Error 145 81928763761 565025957 Total 149 2,57989E+11 Ej signifikant här precis som i Modell 1 Minst en av x-variablerna skall vara med

Modell 4: y=β0 + β3·x3 + β5·x32 + ε I denna modell skapar vi alltså en ny förklaringsvariabel genom att kvadrera x3. Modellen kan alltså analyseras som en linjär modell även om en av förklaringsvariablerna ingår ”icke-linjärt”. Modelltypen kallas kvadratisk regression och är ett specialfall av polynomregression i vilken flera variabler med olika grader kan ingå, dvs. andragradstermer (kvadratiska), tredjegradstermer (kubiska), kombinationer av olika termer (se vidare om samspelstermer senare i kursen) etc. Den kvadratiska termen skapas med MTB > let c6=c4**2 och ges t ex namnet ”Rooms_sq” med MTB > name c6 ’Rooms_sq’

Bägge är faktiskt signifikanta på 5% nivå Regression Analysis: Price versus Rooms, Rooms_sq The regression equation is Price = - 45920 + 39680 Rooms - 1606 Rooms_sq Predictor Coef SE Coef T P Constant -45920 38935 -1.18 0.240 Rooms 39680 10477 3.79 0.000 Rooms_sq -1606.4 698.8 -2.30 0.023 S = 33631 R-Sq = 35.6% R-Sq(adj) = 34.7% Analysis of Variance Source DF SS MS F P Regression 2 91722934386 45861467193 40.55 0.000 Residual Error 147 1.66266E+11 1131058802 Total 149 2.57989E+11 Bägge är faktiskt signifikanta på 5% nivå Sämre förklaringsgrad dock!

x3 Den svaga krökningen har försvunnit här men strutformen har återkommit här

De anpassade värdena, dvs. plottas nedan mot variabeln x3, dvs. Rooms. Vi ser tydligt den krökta formen på det anpassade sambandet: En x2-kurva med max-punkt nära x=13. Notera att det finns flera punkter med samma värde på x3 och det är totalt 150 punkter som är plottade i figuren.