Korstabeller och logistisk regression Samband mellan kvalitativa variabler.

Slides:



Advertisements
Liknande presentationer
Carina Begquist Palm, 12 april
Advertisements

SCB i Almedalen 2012 Statistikens betydelse för samhället
Långtidsarbetslöshet och arbetslöshetstider i ett konjunkturperspektiv
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Kapitel 2 – Hur ska en statistisk undersökning redovisas?
Samband mellan kvalitativa variabler Sid
Teori.
FL3 732G81 Linköpings universitet.
1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.
Grundläggande statstik, ht 09, AN1 F9 Analys av frekvenstabeller Hittills har vi analyserat eller jämfört 2 grupper avseende variabler på intervall- eller.
Lösta och olösta problem i tidsvärdesestimering
Dette har skjett i tidigere episode:
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Robert Gidehag & Jonas Arnberg. Studiens frågeställningar Övergripande: Är den svenska alkoholpolitiken effektiv på 2000-talet?
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
Förelasning 1 Kursintroduktion Statistiska undersökningar
FL1 732G70 Statistik A Linköpings universitet.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Hur bra är modellen som vi har anpassat?
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
Några allmänna räkneregler för sannolikheter
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.
Statistik för AT-läkare Robert Hahn, Södertälje sjukhus.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Man har två kvalitativa variabler som man vill gemensamt undersöka. 1.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Föreläsning 8 (Kajsa Fröjd) Logistisk regression Kap Man har en binär responsvariabel som är relaterad till en/flera kvantitativa och/ eller.
Samband mellan kvalitativa variabler Korstabeller Moore kapitel 2.5 och kapitel 9.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Betingade sannolikheter. 2 Antag att vi kastar en tärning och noterar antalet prickar som kommer upp. Låt A vara händelsen ”udda antal prickar”, dvs.
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
1. Kontinuerliga variabler
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Två/flera populationer och en kvalitativ variabel (”The first model” i Moore)
Så kan det låta! … Mätinstrumentets reliabilitet och validitet ökades avsevärt genom en pilotstudie och för att nå bästa generaliserbarhet valdes ett representativt.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Erasmusstatistik studenter till och med läsåret 2009/2010.
CANNABIS OCH ALKOHOL – Hur ser kopplingen ut idag bland unga –
X 5.2 Tabeller och diagram Frekvenstabell
Icke-linjära modeller:
Skyddsfaktorer Riskfaktorer Livsvillkor Levnadsvanor Hälsa Ekonomiska konsekvenser Vårdkontakter Jämställdhet Jämlikhet Skyddsfaktorer Riskfaktorer.
Förelasning 1 Kursintroduktion Statistiska undersökningar
Vad ingår kursen? i korta drag
Vuxenutbildning 2018 i Stockholms län
Regiongemensam elevenkät 2018
Grundläggande begrepp
Y 5.4 Tabeller och diagram Frekvens och relativ frekvens
Presentationens avskrift:

Korstabeller och logistisk regression Samband mellan kvalitativa variabler

Vi har sett hur man kan beskriva linjära samband mellan två kvantitativa variabler med hjälp av spridningsdiagram, korrelation och regression. Om man vill studera samband mellan två kvalitativa variabler kan man använda en korstabell (tvåvägsindelad tabell).

Innehåller två variabler samt frekvenser eller relativa frekvenser Tvåvägsindelad frekvenstabell

Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År Uppdelat på kön. Procent.

Finns det samband mellan lön och kön (frekvenser)? Kön Lön MänKvinnorTotalt Totalt80 160

Marginalfördelningar Fördelningen för variabeln lön ser vi i kolumnen längst till höger i tabellen. Den kallas för en marginalfördelning eftersom vi ser den ”i marginalen”. LönAntalProcent Totalt

Betingade fördelningar Lönefördelningen för endast ett av könen kallas för en betingad fördelning eftersom vi tittar på lönefördelningen givet (betingat på) ett visst värde på variabeln kön. Lönefördelning för män: LönAntalProcent Totalt80100

Finns det samband mellan lön och kön (procent)? För att studera skillnader i lön mellan män och kvinnor kan det vara smart att räkna om till kolumnprocent. Detta är framför allt en fördel om det är stor skillnad mellan antalet män och antalet kvinnor. Kön Lön MänKvinnor Totalt100

Simpson’s paradox Precis som när vi tidigare studerade samband mellan kvantitativa variabler kan en störande variabel, en variabel som påverkar båda våra variabler men som ej finns med i studien, ge en felaktig bild av sambandet.

Exempel 6.6 Jämförelse mellan andel (procent) döda vid transport till sjukhus med helikopter och andel döda vid transport till sjukhus med bil. HelikopterBil Den skadade dog Den skadade överlevde Totalt100.0

Problem: De som transporteras med helikopter är oftare inblandade i svåra olyckor och därmed svårt skadade. Lösning: Jämför endast likartade olyckor.

Allvarliga olyckor Procent HelikopterBil Den skadade dog4860 Den skadade överlevde5240 Totalt100

Mindre allvarliga olyckor Procent HelikopterBil Den skadade dog1620 Den skadade överlevde8480 Totalt100

Logistisk regression Vid en undersökning av sambandet mellan kön och alkoholkonsumtion studerades studenter. Man delade in studenterna i de som hade en hög konsumtion och de som ej hade en hög konsumtion. Resultatet blev att 3314 studenter hade en hög konsumtion. Proportionen med hög konsumtion blev alltså p =

Man såg också en viss skillnad mellan män och kvinnor. ManKvinnaTotalt Hög kons Ej hög kons Totalt

Vi ser att proportionen med hög konsumtion var p = (2167 av 9548) bland männen. Motsvarande proportion för kvinnorna var p =

Odds Oddset för hög alkoholkonsumtion är antalet med hög konsumtion i förhållande till antalet med ej hög alkoholkonsumtion. För männen blir oddset För kvinnorna blir oddset på motsvarande sätt

Modellen Antag att vi vill ha en modell som vi kan använda då responsvariabeln bara kan anta två värden men där förklaringsvariabeln kan vara kvantitativ och anta väldigt många värden. Vi vill ha en modell som motsvarar den linjära regressionsmodell som vi tidigare använt när vi studerat samband mellan två kvantitativa variabler. Vårt problem är att den linjära regressionsmodellen inte fungerar när responsvariabeln endast kan anta två värden och kanske dessutom är kvalitativ.

Nedanstående modell är ett sätt att beskriva en proportion (andelar) som en funktion av någon förklaringsvariabel.

Exempel: Ättiksyra i ost (Cheddar) Osten smakbedöms som acceptabel eller ej acceptabel. Smaken beror delvis på koncentrationen av ättiksyra, som varierar lite mellan ostarna. En logistisk regressionsmodell kan användas för att beskriva proportionen, p, acceptabla ostar (sannolikheten för acceptabel ost) som en funktion av koncentrationen av ättiksyra.

Resultat av anpassning av modellen till data: där x är koncentrationen av ättiksyra.

Med koncentrationen x = 5 får vi

Med koncentrationen x = 6 får vi