1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Hur bra är modellen som vi har anpassat?
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Tidsserieanalys Exempel:
Genomgång - biostatistik Fråga 1 I en liten undersökning efterfrågades uppgifter om ålder hos 20 personer med högt blodtryck se tabell a)Beräkna.
Föreläsning 8 732G81. Kapitel 8 Inferens om en ändlig population Sid
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Experimentdesign och statistik Håkan Rydin Evolutionsbiologiskt centrum växtekologi Medan ni väntar – fundera över: Varför använder biologer statistik?
Introduktion. Exempel: Till ett försök med bantningsmedlet Bantomid anmälde sig 14 personer frivilligt, alla med övervikt. De delades slumpmässigt in.
Introduktion. Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
ASI och Ubåt - ett ramverk för att följa upp och utvärdera insatser i missbruksvård.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Vad är du för typ av person? (Skriv vid raderna i dina papper)
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
SSFs Regelkommitté 2008 Gröna regler Nybörjarregler 2008.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 5 (Kajsa Fröjd) Tidsserier Kap 13.1 Man har en kvantitativ responsvariabel som mäts vid olika tidpunkter. 1.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
I detta projekt var uppgiften att konstruera en av flera plattor som tillsammans formar en mindre ”stad”. Denna stad ska vara en plattform för mindre.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Kan vi mäta effekter besökares konsumtion med hjälp av rAPS?
SVMF Höstmöte 2016 Vad händer i Sverige
Syftet med ASI och UBÅT är att bidra till en kunskapsbaserad lokal missbruksvård
Kap 4 - Statistik.
En plattform för samhällsekonomisk analys
Felrättning och information: uppdaterad uppdaterad
Hämtning och installation av nytt program till din dator
Klassifikation av vårdåtgärder
Wordgenomgång.
Kritiskt förhållningssätt
Skolverket – utvärdering för lärande Jessica Lindvert, chef insatsutvärdering ge en lägesbild av hur vi arbetar med utvärdering i Skolverket, och att.
Nybörjarregler 2008 Gröna regler SSFs Regelkommitté 2008
Kompetensförsörjningsgruppen presenterar
Världens Befolkning Bsa frågor till rubrik: Vilka frågor kan man ställa om VB?
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Johan M. Sanne Lisa Schmidt
Kommunikationsplan Bilaga 11 till överenskommelsen mellan Hudiksvalls kommun och Arbetsförmedlingen gällande samverkan för att minska arbetslösheten.
Tillämpad ekonometri (5 sp)
Forskningsutvärdering & bibliometri
Partisympatimätningar i sverige idag - en översikt och diskussion
Vad ingår kursen? i korta drag
Kvalitetsarbete i skolan Henrik Dahl, Skolinspektionen
Några reflektioner av Stephen Hwang Högskolan i Halmstad
- ett verktyg för ANDT-uppföljning Introduktion
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
Kan du begreppen? Para ihop rätt begrepp med rätt beskrivning. Algoritm Precis Program Är ett annat ord för exakt, tydlig eller noggrant. Är klara och.
Världens Befolkning Bsa frågor till rubrik: Vilka frågor kan man ställa om VB?
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
Fördjupning till systematiskt kvalitetsarbete
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
VHS internationella antagningsomgång - Rekrytering och söktryck 1(2)
HÅLLBARA LIVSSTILAR - Hur du lyckas med insats & utvärdering
[Projektnamn] Utvärdering
Presentationens avskrift:

1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program. Hon planerar att ta fram en metod att prediktera hur studenten kommer att klara sig på programmet. Hon tror att en students framgång på programmet kan predikteras av följande variabler: –“Undergraduate GPA” –“Graduate Management Admission Test (GMAT) score” –“Number of years of work experience”

2 Man gjorde ett slumpmässigt urval av studenter som var klara med sina studier. Med hjälp av dessa data är tanken att ta fram en metod som kan användas för att anta “lämpliga” sökande.

3 Rektorns lösning var att arbeta med en linjär regressionsmodell: –y =  0 +  1 x 1 +  2 x 2 +  3 x 3 +  med de “vanliga” antagandena om slumptermen. y = MBA GPA x 1 = undergraduate GPA [UnderGPA] x 2 = GMAT score [GMAT] x 3 = years of work experience [Work] –Den skattade modellen blir då: MBA GPA = b 0 + b 1 UnderGPA + b 2 GMAT + b 3 Work

4 Vi skattar modellen och kollar sedan: Normalfördelnings- antagandet

5 Om variansen är konstant

6 Minst en x-variabel är linjärt relaterad till y 46.35% av variationen i MBA GPA förklaras av modellen. GMAT score och years of work experience är linjärt relaterade till MBA GPA. Ej tillräckligt empiriskt stöd för ett linjärt samband mellan GPA MBA GPA.

7 De antaganden vi gör måste kollas. –Är slumptermen normalfördelad? –Är variansen konstant (homoskedasticitet)? –Är slumptermerna oberoende? –Har vi några outliers? –Har vi problem med multikollineraitet? Använd residualerna och rita ett histogram Plotta residualerna mot y ^ Plotta residualerna mot tiden

8 Multikollinearitet Exempel : Prediktion av huspriser –En mäklare tror att det pris man kan sälja ett hus för kan predikteras med hjälp av “the house size”, “number of bedrooms” och “lot size”. –Man tog ett slumpmässigt urval bestående av 100 hus.

9 Den föreslagna modellen blir PRICE =  0 +  1 BEDROOMS +  2 H-SIZE +  3 LOTSIZE +  När vi gör ett F-test skall nollhypotesen förkastas, men vid t-testen får vi ingen signifikans?!

10 Problemet är att vi har mulitkollinearitet. Multikollinearitet kan bl a orsaka att: –observationen på F-statistikan blir stor samtidigt som observationerna på t-statistikorna är små. –skattningarna av  koefficienterna blir osäkra (standardavvikelserna blir stora).

11 Multikollinearitetsproblemet uppstår när vi har tillräckligt med information för att kunna säga att minst en av x- variablerna är linjärt relaterad till y (observationen på F blir stor), men ej tillräckligt med information för att kunna avgöra vilken av dessa x-variabler det är (observtionerna på t-statistikorna blir små). Observera att problem med multikollinearitet uppstår på grund av brist på information. Vi har inte tillräckligt med information i våra data för att vi skall kunna skatta modellen på ett ”bra” sätt.

12 Åtgärder när våra antaganden ej är uppfyllda Om antagandet om normalitet eller antagandet om homoskedasticitet ej är uppfyllt kan man ibland åtgärda detta genom att transformera y-variabeln. Med dagens datorprogramvaror kan detta ofta göras relativt enkelt. Det är dock inget som vi fördjupar oss i under denna kurs.

13 Durbin–Watson-test: Är slumptermerna autokorrelerade? Ett test för autokorrelation med lag 1. Om autokorrelation finns så är antagandet om oberoende slumptermer ej uppfyllt. Residual vid tidpunkt i

14 Positiv autokorrelation med lag Residualer Tid Positiv autokorrelation med lag 1 får vi när residualerna, med en enhets tidsförskjutning, tenderar att ha samma tecken. Det observerade värdet på d är då “litet” (mindre än 2). 0 +

15 Negativ autokorrelation med lag Residualer Tid Negativ autokorrelation med lag 1 får vi när residualerna, med en enhets tidsförskjutning, tenderar att ha olika tecken. Det observerade värdet på d blir då “stort” (större än 2).

16 Nollhypotesen är att det inte finns någon autokorrelation med lag 1. Alternativhypotesen är att det finns en positiv autokorrelation med lag 1. Om d<d L finns det tillräckligt empiriskt stöd för postitiv autokorrelation med lag 1. Nollhypotesen förkastas. Om d>d U finns det inte tillräckligt empiriskt stöd för alternativhypotesen. Nollhypotesen kan ej förkastas. Om d är mellan d L och d U har vi fått en observation i en “grå zon” där vi ej kan dra någon slutsats. Enkelsidigt test av positiv autokorrelation med lag 1 dLdL Stöd för positiv autokor- relation “Grå zon” Nollhypotesen kan ej förkastas dUdU

17 Enkelsidigt test av negativ autokorrelation med lag 1 Nollhypotesen är att det inte finns någon autokorrelation med lag 1. Alternativhypotesen är att det finns en negativ autokorrelation med lag 1. Om d>4-d L finns det empiriskt stöd för negativ autokorrelation med lag 1. Nollhypotesen förkastas. Om d<4-d U finns det inte tillräckligt empiriskt stöd för negativ autokorrelation. Nollhypotesen kan ej förkastas. Om d är mellan 4-d U och 4-d L har vi fått en observation i en “grå zon” där vi ej kan dra någon slutsats. Negativ Autokor- relation med lag 1 4-d U 4-d L “Grå zon”Nollhypotesen kan ej förkastas

18 Nollhypotesen är att det inte finns någon autokorrelation med lag 1. Alternativhypotesen är att det finns autokorrelation med lag 1. Om d 4-d L har vi empiriskt stöd för autokorrelation med lag 1. Om vi får en observation på d mellan d L och d U eller mellan 4-d U och 4-d L kan vi ej dra någon slutsats. Om vi får en observation på d mellan d U och 4-d U har vi ej tillräckligt empiriskt stöd för att det existerar autokorrelation med lag 1. Nollhypotesen kan ej förkastas. dLdL dUdU d U 4-d L Förkasta nollhypo- tesen Förkasta nollhypo- tesen Ingen slutsats Ingen slutsats Förkasta ej nollhypo- tesen Förkasta ej nollhypo- tesen Tvåsidigt test av autokorrelation med lag 1

19 Exempel –Hur påverkas försäljningen av liftkort på en skidort av vädret? –Data på försäljning av liftkort (“Tickets”), temperatur och snöfall har samlats in från julveckan de senaste 20 åren. –Man använde följande modell: TICKETS =  0 +  1 SNOWFALL +  2 TEMPERATURE+  –En regressionsanalys gav följande resultat: Test av autokorrelation med lag 1 Exempel

20 Modellen ser inte så bra ut: Modellen ser inte så bra ut: R 2 = F-kvoten är nära noll t-kvoterna är nära noll. I inget fall kan nollhypotesen förkastas.

21 Residualernas fördelning Antagandet om normalfördelning verkar rimligt.

22 Residualerna plottade mot predikterade värden Inga tecken på heteroskedasticitet Konstant varians?

23 Residualerna plottade mot tiden Autokorrelation med lag 1 Slumptermerna är ej oberoende!! Det finns en trend i försäljningen som ej förklaras av snöfall och temperatur.

24 H 0 : Ingen autokorrelation med lag 1 H 1 : Positiv autokorrelation med lag 1 Teststatistika : Durbin-Watson-statistikan, d Kritisk gräns : Med n=20, k=2 och signifikansnivån 5 % får vi från tabellen i boken: d L =1.10, d U =1.54. Vi ska förkasta nollhypotesen om vi får en observation under Vi ska inte förkasta nollhypotesen om vi får en observation över Observationen blir d= (använd dator) Slutsats : Förkasta nollhypotesen. Vi har empiriskt stöd för alternativhypotesen. Test av positiv autokorrelation med lag 1

25 Modifierad modell: Inkludering av tid som x-variabel Den modifierade regressionsmodellen: TICKETS =  0 +  1 SNOWFALL +  2 TEMPERATURE +  3 TIME +  Alla antaganden om slumptermen verkar vara uppfyllda. Förklaringsgraden är hög, R 2 = P-värdet vid ett F-test blir SNOWFALL och TIME är, enligt t-testen, linjärt relaterade till TICKETS. TEMPERATURE är ej linjärt relaterad till TICKETS.