Presentation laddar. Vänta.

Presentation laddar. Vänta.

Korstabeller och logistisk regression Samband mellan kvalitativa variabler.

Liknande presentationer


En presentation över ämnet: "Korstabeller och logistisk regression Samband mellan kvalitativa variabler."— Presentationens avskrift:

1 Korstabeller och logistisk regression Samband mellan kvalitativa variabler

2 Vi har sett hur man kan beskriva linjära samband mellan två kvantitativa variabler med hjälp av spridningsdiagram, korrelation och regression. Om man vill studera samband mellan två kvalitativa variabler kan man använda en korstabell (tvåvägsindelad tabell).

3 Innehåller två variabler samt frekvenser eller relativa frekvenser Tvåvägsindelad frekvenstabell

4 Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År 2003. Uppdelat på kön. Procent.

5 Finns det samband mellan lön och kön (frekvenser)? Kön Lön MänKvinnorTotalt 10 000-19 999 4060100 20 000-29 999 251540 30 000-39 999 15520 Totalt80 160

6 Marginalfördelningar Fördelningen för variabeln lön ser vi i kolumnen längst till höger i tabellen. Den kallas för en marginalfördelning eftersom vi ser den ”i marginalen”. LönAntalProcent 10 000-19 999 10062.5 20 000-29 999 4025.0 30 000-39 999 2012.5 Totalt160100.0

7 Betingade fördelningar Lönefördelningen för endast ett av könen kallas för en betingad fördelning eftersom vi tittar på lönefördelningen givet (betingat på) ett visst värde på variabeln kön. Lönefördelning för män: LönAntalProcent 10 000-19 999 4050 20 000-29 999 2531 30 000-39 999 1519 Totalt80100

8 Finns det samband mellan lön och kön (procent)? För att studera skillnader i lön mellan män och kvinnor kan det vara smart att räkna om till kolumnprocent. Detta är framför allt en fördel om det är stor skillnad mellan antalet män och antalet kvinnor. Kön Lön MänKvinnor 10 000-19 999 5075 20 000-29 999 3119 30 000-39 999 196 Totalt100

9 Simpson’s paradox Precis som när vi tidigare studerade samband mellan kvantitativa variabler kan en störande variabel, en variabel som påverkar båda våra variabler men som ej finns med i studien, ge en felaktig bild av sambandet.

10 Exempel 6.6 Jämförelse mellan andel (procent) döda vid transport till sjukhus med helikopter och andel döda vid transport till sjukhus med bil. HelikopterBil Den skadade dog32.023.6 Den skadade överlevde68.076.4 Totalt100.0

11 Problem: De som transporteras med helikopter är oftare inblandade i svåra olyckor och därmed svårt skadade. Lösning: Jämför endast likartade olyckor.

12 Allvarliga olyckor Procent HelikopterBil Den skadade dog4860 Den skadade överlevde5240 Totalt100

13 Mindre allvarliga olyckor Procent HelikopterBil Den skadade dog1620 Den skadade överlevde8480 Totalt100

14 Logistisk regression Vid en undersökning av sambandet mellan kön och alkoholkonsumtion studerades 17096 studenter. Man delade in studenterna i de som hade en hög konsumtion och de som ej hade en hög konsumtion. Resultatet blev att 3314 studenter hade en hög konsumtion. Proportionen med hög konsumtion blev alltså p = 0.1938.

15 Man såg också en viss skillnad mellan män och kvinnor. ManKvinnaTotalt Hög kons.216711473314 Ej hög kons.7381640113782 Totalt9548754817096

16 Vi ser att proportionen med hög konsumtion var p = 0.2270 (2167 av 9548) bland männen. Motsvarande proportion för kvinnorna var p = 0.1520.

17 Odds Oddset för hög alkoholkonsumtion är antalet med hög konsumtion i förhållande till antalet med ej hög alkoholkonsumtion. För männen blir oddset För kvinnorna blir oddset på motsvarande sätt 0.205.

18 Modellen Antag att vi vill ha en modell som vi kan använda då responsvariabeln bara kan anta två värden men där förklaringsvariabeln kan vara kvantitativ och anta väldigt många värden. Vi vill ha en modell som motsvarar den linjära regressionsmodell som vi tidigare använt när vi studerat samband mellan två kvantitativa variabler. Vårt problem är att den linjära regressionsmodellen inte fungerar när responsvariabeln endast kan anta två värden och kanske dessutom är kvalitativ.

19 Nedanstående modell är ett sätt att beskriva en proportion (andelar) som en funktion av någon förklaringsvariabel.

20 Exempel: Ättiksyra i ost (Cheddar) Osten smakbedöms som acceptabel eller ej acceptabel. Smaken beror delvis på koncentrationen av ättiksyra, som varierar lite mellan ostarna. En logistisk regressionsmodell kan användas för att beskriva proportionen, p, acceptabla ostar (sannolikheten för acceptabel ost) som en funktion av koncentrationen av ättiksyra.

21 Resultat av anpassning av modellen till data: där x är koncentrationen av ättiksyra.

22 Med koncentrationen x = 5 får vi

23 Med koncentrationen x = 6 får vi


Ladda ner ppt "Korstabeller och logistisk regression Samband mellan kvalitativa variabler."

Liknande presentationer


Google-annonser