Workshop i statistik för medicinska bibliotekarier! Agne Larsson & Daniel Wadskog
Översikt Lägesmått Spridningsmått Statistisk inferens Sambandsmodeller Konfidensintervall Hypotesprövning Signifikans/P-värde Sambandsmodeller Korrelation, kausalitet Regression, R2 (Odds-/riskkvot)
Introduktion: På KIB Solna finns två personalkök. I det ena står det alltid en välfylld fruktkorg, i det andra bjuds istället på godis. För att undersöka hur detta påverkar personalens hälsa har vi fått uppdraget att genomföra en statistisk undersökning. Därför samlar vi in uppgifter om personalens ålder, längd, vikt och blodtryck. Eftersom vi inte har tid att undersöka all personal mäter vi två hela avdelningar som är belägna vid respektive kök. Vi kallar dessa avdelningar för F(rukt) och G(odis). Vi börjar med att ta fram enkla lägesmått, medelvärde och median. (se tex excelfunktionerna medel och median) Två testgrupper, ingen kontrollgrupp...
Översikt Lägesmått Spridningsmått Statistisk inferens Sambandsmodeller Medelvärde Median Spridningsmått Standardavvikelse Kvartilavstånd Statistisk inferens Sambandsmodeller
Lägesmått, spridningsmått Medelvärde Standardavvikelsen är ungefär genomsnittlig avvikelse från medelvärdet
Lägesmått, spridningsmått Median Kvartilavståndet är Q3-Q1 (Interquartile range) Lägg till outliers vid lab, diskutera resultaten. Q1 Q3
Diagram/grafer är också deskriptiv statistik…
Översikt Lägesmått Spridningsmått Statistisk inferens Sambandsmodeller Punktskattning/Standard error Konfidensintervall Hypotesprövning Signifikans/p-värde Sambandsmodeller Hittills har vi inte behövt någon frågeställning eftersom vi bara sysslat med deskriptiv statistik, men vill man svara på frågor och dra statistiska slutsatser som inte bara gäller just det här urvalet krävs inferens.
Sannolikhetslära vs Inferens Med kända förutsättningar kan vi räkna ut hur troliga olika utfall är. Detta är sannolikhetslära. Kända förutsättningar Experiment, okänt utfall - En välbalanserad, jämn slant En population av 1000 personer som vi vet hur långa de är - Singla slanten 20 gånger och räkna antal ”krona” Välj på måfå ut 30 av personerna och räkna ut deras medellängd Med känt utfall kan vi dra slutsatser om förutsättningarna. Detta är statistisk inferens. Okända förutsättningar Experiment, känt utfall - En slant, eventuellt jämn. En population av personer som vi inte vet hur långa de är - Det blev 16 ”krona” på 20 försök 30 på måfå valda personer var i genomsnitt 173 cm långa
Punktskattning/standard error Sant men okänt värde, parameter Punktskattning En metod att punktskatta som i genomsnitt träffar rätt kallas väntevärdesriktig, ’unbiased’ Låtsas att medelvärdet är det sanna värdet. Standard error är standardavvikelsen för en punktskattning
Konfidensintervall Sant men okänt värde, parameter Punktskattning Intervallskattning Ett konfidensintervall består oftast av en undre och en övre gräns på formen Punktskattning ± Felmarginal Ju större chans (konfidens) vi vill ha att träffa det sanna värdet, desto bredare måste vi göra felmarginalen. Vanligast är 95%.
Frågeställning: Har tilldelningen av fikatyp någon påverkan på KIB-personalens hälsa? Hälsoparametrar (beroende variabler): vikt och blodtryck Fikatyper (oberoende variabel): Frukt och Godis
Hypotesprövning P-värde Signifikans Medelvärde Hypotes Hypotesprövning handlar om motbevis av en hypotes mha en mätning Låtsas att hypotesen är sann P-värde är sannolikheten att att få det utfall vi fick av ren slump, under förutsättnig att hypotesen är sann. Räkna ut hur osannolikt det är att få det utfall vi fick, om det är ”för” osannolikt är det inte slump. Om P-värdet är litet tror vi inte på hypotesen. Det uppmätta medelvärdet är signifikant skillt från hypotesens.
Hypotesprövning för fikatyper Nollhypotes: Fikatyp har ingen betydelse för BMI Mothypotes: Fikatyp har betydelse för BMI Vi vill även ha ett mått på ”hur osannolikt” det är att få en så stor skillnad i BMI som vi har mätt upp om det är så att fikatyp inte har någon inverkan. (p-värde)
Översikt Lägesmått Spridningsmått Statistisk inferens Sambandsmodeller Korrelation, kausalitet Regression, R2 Odds-/riskkvot
Korrelation, kausalitet och regression Korrelationen går från -1 till 1 och berättar om styrkan i det linjära sambandet. En regression försöker förklara variationen i en variabel med hjälp av en annan. R2 är korrelationen multiplicerad med sig själv, men är också lika med förklaringsgraden - den del av variationen i vikt som förklaras av det linjära sambandet med längd. Kausalitet är det faktiska orsakssambandet och kan inte påvisas med statistik.
Riskkvot / oddskvot Risk = sannolikhet (p) att exempelvis drabbas av en trafikolycka Riskkvot = risk för grupp A/risk för grupp B = p(A)/p(B) Odds = ett annat sätt att uttrycka sannolikhet: p/(1-p) Oddskvot = odds för grupp A/odds för grupp B = 𝑝(𝐴) (1−𝑝 𝐴 ) / 𝑝(𝐵) (1−𝑝 𝐵 ) Risk: 6% Risk: 3% Odds: 6% / 94% Odds: 3% / 97% Riskkvot = 0,06/0,03 = 2,00. Även kallad relativ risk. Oddskvot = 0,06 0,94 / 0,03 0,97 = 2,06
Diskussion om studien
Exempel från Cochrane Reviews ny bild utan skumma data
Bias Chi2 väntevärdriktig punktskattning power randomisering standard error och väntevärden