1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program. Hon planerar att ta fram en metod att prediktera hur studenten kommer att klara sig på programmet. Hon tror att en students framgång på programmet kan predikteras av följande variabler: –“Undergraduate GPA” –“Graduate Management Admission Test (GMAT) score” –“Number of years of work experience”
2 Man gjorde ett slumpmässigt urval av studenter som var klara med sina studier. Med hjälp av dessa data är tanken att ta fram en metod som kan användas för att anta “lämpliga” sökande.
3 Rektorns lösning var att arbeta med en linjär regressionsmodell: –y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + med de “vanliga” antagandena om slumptermen. y = MBA GPA x 1 = undergraduate GPA [UnderGPA] x 2 = GMAT score [GMAT] x 3 = years of work experience [Work] –Den skattade modellen blir då: MBA GPA = b 0 + b 1 UnderGPA + b 2 GMAT + b 3 Work
4 Vi skattar modellen och kollar sedan: Normalfördelnings- antagandet
5 Om variansen är konstant
6 Minst en x-variabel är linjärt relaterad till y 46.35% av variationen i MBA GPA förklaras av modellen. GMAT score och years of work experience är linjärt relaterade till MBA GPA. Ej tillräckligt empiriskt stöd för ett linjärt samband mellan GPA MBA GPA.
7 De antaganden vi gör måste kollas. –Är slumptermen normalfördelad? –Är variansen konstant (homoskedasticitet)? –Är slumptermerna oberoende? –Har vi några outliers? –Har vi problem med multikollineraitet? Använd residualerna och rita ett histogram Plotta residualerna mot y ^ Plotta residualerna mot tiden
8 Multikollinearitet Exempel : Prediktion av huspriser –En mäklare tror att det pris man kan sälja ett hus för kan predikteras med hjälp av “the house size”, “number of bedrooms” och “lot size”. –Man tog ett slumpmässigt urval bestående av 100 hus.
9 Den föreslagna modellen blir PRICE = 0 + 1 BEDROOMS + 2 H-SIZE + 3 LOTSIZE + När vi gör ett F-test skall nollhypotesen förkastas, men vid t-testen får vi ingen signifikans?!
10 Problemet är att vi har mulitkollinearitet. Multikollinearitet kan bl a orsaka att: –observationen på F-statistikan blir stor samtidigt som observationerna på t-statistikorna är små. –skattningarna av koefficienterna blir osäkra (standardavvikelserna blir stora).
11 Multikollinearitetsproblemet uppstår när vi har tillräckligt med information för att kunna säga att minst en av x- variablerna är linjärt relaterad till y (observationen på F blir stor), men ej tillräckligt med information för att kunna avgöra vilken av dessa x-variabler det är (observtionerna på t-statistikorna blir små). Observera att problem med multikollinearitet uppstår på grund av brist på information. Vi har inte tillräckligt med information i våra data för att vi skall kunna skatta modellen på ett ”bra” sätt.
12 Åtgärder när våra antaganden ej är uppfyllda Om antagandet om normalitet eller antagandet om homoskedasticitet ej är uppfyllt kan man ibland åtgärda detta genom att transformera y-variabeln. Med dagens datorprogramvaror kan detta ofta göras relativt enkelt. Det är dock inget som vi fördjupar oss i under denna kurs.
13 Durbin–Watson-test: Är slumptermerna autokorrelerade? Ett test för autokorrelation med lag 1. Om autokorrelation finns så är antagandet om oberoende slumptermer ej uppfyllt. Residual vid tidpunkt i
14 Positiv autokorrelation med lag Residualer Tid Positiv autokorrelation med lag 1 får vi när residualerna, med en enhets tidsförskjutning, tenderar att ha samma tecken. Det observerade värdet på d är då “litet” (mindre än 2). 0 +
15 Negativ autokorrelation med lag Residualer Tid Negativ autokorrelation med lag 1 får vi när residualerna, med en enhets tidsförskjutning, tenderar att ha olika tecken. Det observerade värdet på d blir då “stort” (större än 2).
16 Nollhypotesen är att det inte finns någon autokorrelation med lag 1. Alternativhypotesen är att det finns en positiv autokorrelation med lag 1. Om d<d L finns det tillräckligt empiriskt stöd för postitiv autokorrelation med lag 1. Nollhypotesen förkastas. Om d>d U finns det inte tillräckligt empiriskt stöd för alternativhypotesen. Nollhypotesen kan ej förkastas. Om d är mellan d L och d U har vi fått en observation i en “grå zon” där vi ej kan dra någon slutsats. Enkelsidigt test av positiv autokorrelation med lag 1 dLdL Stöd för positiv autokor- relation “Grå zon” Nollhypotesen kan ej förkastas dUdU
17 Enkelsidigt test av negativ autokorrelation med lag 1 Nollhypotesen är att det inte finns någon autokorrelation med lag 1. Alternativhypotesen är att det finns en negativ autokorrelation med lag 1. Om d>4-d L finns det empiriskt stöd för negativ autokorrelation med lag 1. Nollhypotesen förkastas. Om d<4-d U finns det inte tillräckligt empiriskt stöd för negativ autokorrelation. Nollhypotesen kan ej förkastas. Om d är mellan 4-d U och 4-d L har vi fått en observation i en “grå zon” där vi ej kan dra någon slutsats. Negativ Autokor- relation med lag 1 4-d U 4-d L “Grå zon”Nollhypotesen kan ej förkastas
18 Nollhypotesen är att det inte finns någon autokorrelation med lag 1. Alternativhypotesen är att det finns autokorrelation med lag 1. Om d 4-d L har vi empiriskt stöd för autokorrelation med lag 1. Om vi får en observation på d mellan d L och d U eller mellan 4-d U och 4-d L kan vi ej dra någon slutsats. Om vi får en observation på d mellan d U och 4-d U har vi ej tillräckligt empiriskt stöd för att det existerar autokorrelation med lag 1. Nollhypotesen kan ej förkastas. dLdL dUdU d U 4-d L Förkasta nollhypo- tesen Förkasta nollhypo- tesen Ingen slutsats Ingen slutsats Förkasta ej nollhypo- tesen Förkasta ej nollhypo- tesen Tvåsidigt test av autokorrelation med lag 1
19 Exempel –Hur påverkas försäljningen av liftkort på en skidort av vädret? –Data på försäljning av liftkort (“Tickets”), temperatur och snöfall har samlats in från julveckan de senaste 20 åren. –Man använde följande modell: TICKETS = 0 + 1 SNOWFALL + 2 TEMPERATURE+ –En regressionsanalys gav följande resultat: Test av autokorrelation med lag 1 Exempel
20 Modellen ser inte så bra ut: Modellen ser inte så bra ut: R 2 = F-kvoten är nära noll t-kvoterna är nära noll. I inget fall kan nollhypotesen förkastas.
21 Residualernas fördelning Antagandet om normalfördelning verkar rimligt.
22 Residualerna plottade mot predikterade värden Inga tecken på heteroskedasticitet Konstant varians?
23 Residualerna plottade mot tiden Autokorrelation med lag 1 Slumptermerna är ej oberoende!! Det finns en trend i försäljningen som ej förklaras av snöfall och temperatur.
24 H 0 : Ingen autokorrelation med lag 1 H 1 : Positiv autokorrelation med lag 1 Teststatistika : Durbin-Watson-statistikan, d Kritisk gräns : Med n=20, k=2 och signifikansnivån 5 % får vi från tabellen i boken: d L =1.10, d U =1.54. Vi ska förkasta nollhypotesen om vi får en observation under Vi ska inte förkasta nollhypotesen om vi får en observation över Observationen blir d= (använd dator) Slutsats : Förkasta nollhypotesen. Vi har empiriskt stöd för alternativhypotesen. Test av positiv autokorrelation med lag 1
25 Modifierad modell: Inkludering av tid som x-variabel Den modifierade regressionsmodellen: TICKETS = 0 + 1 SNOWFALL + 2 TEMPERATURE + 3 TIME + Alla antaganden om slumptermen verkar vara uppfyllda. Förklaringsgraden är hög, R 2 = P-värdet vid ett F-test blir SNOWFALL och TIME är, enligt t-testen, linjärt relaterade till TICKETS. TEMPERATURE är ej linjärt relaterad till TICKETS.