Korstabeller och logistisk regression Samband mellan kvalitativa variabler
Vi har sett hur man kan beskriva linjära samband mellan två kvantitativa variabler med hjälp av spridningsdiagram, korrelation och regression. Om man vill studera samband mellan två kvalitativa variabler kan man använda en korstabell (tvåvägsindelad tabell).
Innehåller två variabler samt frekvenser eller relativa frekvenser Tvåvägsindelad frekvenstabell
Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År Uppdelat på kön. Procent.
Finns det samband mellan lön och kön (frekvenser)? Kön Lön MänKvinnorTotalt Totalt80 160
Marginalfördelningar Fördelningen för variabeln lön ser vi i kolumnen längst till höger i tabellen. Den kallas för en marginalfördelning eftersom vi ser den ”i marginalen”. LönAntalProcent Totalt
Betingade fördelningar Lönefördelningen för endast ett av könen kallas för en betingad fördelning eftersom vi tittar på lönefördelningen givet (betingat på) ett visst värde på variabeln kön. Lönefördelning för män: LönAntalProcent Totalt80100
Finns det samband mellan lön och kön (procent)? För att studera skillnader i lön mellan män och kvinnor kan det vara smart att räkna om till kolumnprocent. Detta är framför allt en fördel om det är stor skillnad mellan antalet män och antalet kvinnor. Kön Lön MänKvinnor Totalt100
Simpson’s paradox Precis som när vi tidigare studerade samband mellan kvantitativa variabler kan en störande variabel, en variabel som påverkar båda våra variabler men som ej finns med i studien, ge en felaktig bild av sambandet.
Exempel 6.6 Jämförelse mellan andel (procent) döda vid transport till sjukhus med helikopter och andel döda vid transport till sjukhus med bil. HelikopterBil Den skadade dog Den skadade överlevde Totalt100.0
Problem: De som transporteras med helikopter är oftare inblandade i svåra olyckor och därmed svårt skadade. Lösning: Jämför endast likartade olyckor.
Allvarliga olyckor Procent HelikopterBil Den skadade dog4860 Den skadade överlevde5240 Totalt100
Mindre allvarliga olyckor Procent HelikopterBil Den skadade dog1620 Den skadade överlevde8480 Totalt100
Logistisk regression Vid en undersökning av sambandet mellan kön och alkoholkonsumtion studerades studenter. Man delade in studenterna i de som hade en hög konsumtion och de som ej hade en hög konsumtion. Resultatet blev att 3314 studenter hade en hög konsumtion. Proportionen med hög konsumtion blev alltså p =
Man såg också en viss skillnad mellan män och kvinnor. ManKvinnaTotalt Hög kons Ej hög kons Totalt
Vi ser att proportionen med hög konsumtion var p = (2167 av 9548) bland männen. Motsvarande proportion för kvinnorna var p =
Odds Oddset för hög alkoholkonsumtion är antalet med hög konsumtion i förhållande till antalet med ej hög alkoholkonsumtion. För männen blir oddset För kvinnorna blir oddset på motsvarande sätt
Modellen Antag att vi vill ha en modell som vi kan använda då responsvariabeln bara kan anta två värden men där förklaringsvariabeln kan vara kvantitativ och anta väldigt många värden. Vi vill ha en modell som motsvarar den linjära regressionsmodell som vi tidigare använt när vi studerat samband mellan två kvantitativa variabler. Vårt problem är att den linjära regressionsmodellen inte fungerar när responsvariabeln endast kan anta två värden och kanske dessutom är kvalitativ.
Nedanstående modell är ett sätt att beskriva en proportion (andelar) som en funktion av någon förklaringsvariabel.
Exempel: Ättiksyra i ost (Cheddar) Osten smakbedöms som acceptabel eller ej acceptabel. Smaken beror delvis på koncentrationen av ättiksyra, som varierar lite mellan ostarna. En logistisk regressionsmodell kan användas för att beskriva proportionen, p, acceptabla ostar (sannolikheten för acceptabel ost) som en funktion av koncentrationen av ättiksyra.
Resultat av anpassning av modellen till data: där x är koncentrationen av ättiksyra.
Med koncentrationen x = 5 får vi
Med koncentrationen x = 6 får vi