Föreläsning 8 (Kajsa Fröjd) Logistisk regression Kap Man har en binär responsvariabel som är relaterad till en/flera kvantitativa och/ eller kvalitativa förklarande variabler. 1
Logistisk regression 2
Logistisk regression användbart! Logistisk regression har ökat dramatiskt de senaste 15 åren. Den är nu den dominerande formen av regressionsanalys inom sociologisk och statsvetenskaplig forskning (ty samhällsveten- skapliga data är ofta kvalitativa och kan göras binära genom att slå ihop klasser/nivåer). 3
Ex. Politikerförtroende Responsvariabel: Politikerförtroende (’stort förtroende’/’litet förtroende’) Förklarande variabler: Utbildning, kön och mellanmänsklig tillit. Ursprungligen hade responsvariabeln Politikerförtroende fyra klasser/nivåer: ’mycket stort förtroende’, ’ganska stort förtroende’, ’ganska litet förtroende’ och ’mycket litet förtroende’. För att responsvariabeln skulle bli binär så slog man ihop klasserna ’mycket stort förtroende och ganska stort förtroende’ (och kallade den ’stort förtroende’) samt klasserna ’ganska litet förtroende’ och ’mycket litet förtroende’ (och kallade den ’litet förtroende’). 4
Definitioner 5
Varför funkar inte linjär regression då responsvariabeln är binär? 6
Odds 7
En växt ger en grodd med 80% sannolikhet. Vad är oddset för en grodd? 8
En annan växt ger en grodd med 25% sannolikhet. Vad är oddset för en grodd? 9
Logistisk regressionsmodell 10
Logistisk regressionsfunktion 11
12
Oddskvot (Odds Ratio, OR) 13
Ex 1. Nya köp och tidigare inköp 14
Ex 1. Nya köp och tidigare inköp 15
Ex 1. Nya köp och tidigare inköp 16
Ex 1. Nya köp och tidigare inköp 17
Ex 1. Nya köp och tidigare inköp 18
Ex 2. Nya köp och tidigare inköp samt kundkort 19
Ex 2. Nya köp och tidigare inköp samt kundkort 20
Ex 1. Nya köp och tidigare inköp 21
Ex 1. Nya köp och tidigare inköp samt kundkort 22
Ex 1. Nya köp och tidigare inköp 23
Test av samband mellan responsvariabeln och (åtminstone en av) de förklarande variablerna 24
Test av samband mellan responsvariabeln och någon av de förklarande variablerna 25
Konfidensintervall för oddskvot 26
Ex 2. Nya inköp (forts.) 27
Vilket statistikverktyg? Fall 1. Känslor av värdefullhet. Man vill undersöka huruvida kön, ålder (år) samt fysisk närhet i barndomen och fysisk närhet som vuxen påverkar individers känslor av värdefullhet (’känner sig värdefull’/’känner sig inte värdefull’). 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 28
Vilket statistikverktyg? Fall 2. Pris på begagnade bilar. För en viss modell vill man undersöka hur priset påverkas av årsmodell, körsträcka samt utrustningsnivå (0=standard, 1=exklusiv utrustning). 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 29
Vilket statistikverktyg? Fall 3. Byte till insulinpump. I dagsläget finns det skillnader i andelen insulinpumpanvändare mellan olika patientgrupper och skillnader finns även i de olika gruppernas benägenhet att byta från andra insulinbehandlingar till insulinpump. Man är intresserad av hur patienters njurfunktion, kön, långtidsblodsocker, insulindos, diabetesduration och ålder påverkar sannolikheten att byta till insulinpump. 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 30
Vilket statistikverktyg? Fall 4. Incidenter i trafiken och däck. En bärgningsfirma noterar för varje incident under en vinter vilken sorts däck de förolyckade bilarna hade (dubbdäck, friktionsdäck eller sommardäck) samt vilket väglag det var (isgata, snömodd eller gott skick). Man är intresserad av att se om det finns något samband mellan typ av däck och väglag vid sådana incidenter. 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 31
Vilket statistikverktyg? Fall 5. Fondutveckling. En fonds utveckling noteras (mätt som en fondandels värde i kronor den sista december varje år). Man är intresserad av att göra en prognos över fondens värde år Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 32
Vilket statistikverktyg? Fall 6. Hjärtinfarktsbehandling. Man vill undersöka huruvida patienter i riskzonen för hjärtinfarkt har nytta av behandling mot ilska/vrede. Man har ett stickprov på 20 personer som alla har haft en hjärtinfarkt. Tio av dem får en viss behandling mot ilska/vrede, resterande tio får inte det. Förutom denna behandling så mäter man även deras ångestnivå (mätt på en viss skala). Efter ett år noterar man vilka som har fått ännu en hjärtinfarkt. 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 33
Vilket statistikverktyg? Fall 7. Biointäkter. I en studie undersöktes tio Hollywoodfilmer (som alla var baserade på någon bok) för att se om det fanns något samband mellan biljettintäkter och produktionskostnader, marknadsföringskostnader och bokförsäljning. 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 34
Vilket statistikverktyg? Fall 8. Operationsmetod och smärta. För att mäta smärta används ofta VAS-skalan (visuell analog skala). Patienten graderar sin smärta längs en 10cm lång linje där 0 är ingen smärta och 10 värsta tänkbara smärta. Vid en studie mäter en kirurg smärtan med VAS-skalan hos 89 patienter efter en viss typ av operation, 42 är opererade med titthålskirurgi och resterande med traditionell kirurgi. Smärtan delas in i tre klasser: låg smärta (0-25mm), acceptabel smärta (26-74mm) samt hög smärta (75-100mm). Man är intresserad av om de två operationsmetoderna ger skillnad i smärta. 1.Enkel regression 2.Multipel regression 3.Tidsserier 4.Chi-två test 5.Logistisk regression 35