SPSS baserad biostatistik

Slides:

Advertisements

Liknande presentationer

Inferens om en population Sid

Advertisements

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:

FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Den vetenskapliga artikeln

FL3 732G81 Linköpings universitet.

FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Skånes Universitetssjukhus

Olika mått på grad av fetma - Spelar det någon roll hur vi mäter?

Workshop i statistik för medicinska bibliotekarier!

Vad ingår kursen? i korta drag

Tillämpad statistik Naprapathögskolan

Vibeke Horstmann, Inst för hälsa, vård, samhälle, Centre for Ageing and Supportive Environments Jämförelse av två behandlingar.

Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.

Sammanfatta siffrorna…

Skattningens medelfel

Grundläggande Biostatistik

Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

Centrala Gränsvärdessatsen:

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

Statsvetenskap 3, statsvetenskapliga metoder

Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.

Hur bra är modellen som vi har anpassat?

Normalfördelningen och centrala gränsvärdessatsen

Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9

Statistik Lars Valter Fil.lic. Statistik

Mål Matematiska modeller Biologi/Kemi Statistik Datorer

Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.

Läkarprogrammet – Termin 5, VT 2015

732G22 Grunder i statistisk metodik

VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:

Läkarprogrammet – Termin 5, VT 2015

Grundläggande statistik, ht 09, AN

Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.

Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Grundläggande epidemiologi Susanna Calling, läk, med dr

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

Statistik för AT-läkare Robert Hahn, Södertälje sjukhus.

Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.

Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.

1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 

Korstabeller och logistisk regression Samband mellan kvalitativa variabler.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.

1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

Regression Har långa högre inkomst?. Världsrekord på engelska milen.

Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

Sju sätt att visa data Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete.

Marknadsundersökning Kap 12

Multipel regression och att bygga (fungerande) modeller

Data och att presentera data

Fördelning av data och index

Relation mellan variabler – samvariation, korrelation, regression

Epidemiologi -grundläggande begrepp

Förelasning 1 Kursintroduktion Statistiska undersökningar

Grundläggande begrepp

Ett verktyg för systematisk uppföljning i missbruksbruksvården

Presentationens avskrift:

SPSS baserad biostatistik Bo Hedblad Senior professor Kardiovaskulär epidemiologi IKVM, CRC SUS Malmö Bo Hedblad Biostatistik T10

Statistik (av stat, ställning) Ursprungligen beskrivning av befolkning och politiska förhållanden 1600-talet: studier av födslo- och dödstal 1741 JP Süssmilch. “Die Göttliche Ordnung in den Veränderung des menschlichen Geschlechtes” Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Finns det något fel i denna studie? 73% av olyckorna bland ’hang gliders’ inträffar mellan kl. 11 och 15. Slutsats: Flygningar mellan dessa tidpunkter bör därför förbjudas. Bo Hedblad Biostatistik T10

Ett annat exempel. Något fel? I en studie rapporterades att 68% av olycksfallen på sjukhus inträffade bland patienter över 60 år. Slutsats: Patienter över 60 år har större olycksrisk och bör i större utsträckning få särskild tillsyn. Bo Hedblad Biostatistik T10

Methods of Reporting Statistical Results from Medical Research Studies Stephen D. Walter Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton, Ontario, Canada. - One survey concluded ”that statistical knowledge of most doctors is so limited that they cannot be expected to draw the right conclusions from those statistical analyses which are found in papers in most medical journals” (14, p. 3). - By its nature, much of epidemiology, is inherently quantitative, and statistical issues are prominent. Walters SD. Am J Epidemiol 1995; 141: 896-906 Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Några epidemiologiska grundbegrepp Population En definierad grupp av individer Individer Oftast detsamma som personer, kan även vara familjer, kommuner, etc Totalundersökning Alla individer i populationen ingår Urvalsundersökning Endast en del (”stickprov”) av totalpopulationen ingår Bo Hedblad Biostatistik T10

Population och urval TOTAL POPULATION URVAL ”stickprov” - Patienter - Individer Deltagare Skillnader? Representativitet? Selektionbias? Icke-deltagare Bo Hedblad Biostatistik T10

Population - Urval Representativitet Hur ser bakgrundspopulationen ut? Hur ser urvalet (”stickprovet”) ut? Hur representativa är resultaten? Bo Hedblad Biostatistik T10

Rosvall M, et al. Atherosclerosis 2015; 91: 012809. Epub 2015 Jan 12 n=5530 with lab measures n = 6103 (61%) (17%) (22%) Rosvall M, et al. Atherosclerosis 2015; 91: 012809. Epub 2015 Jan 12 Bo Hedblad Biostatistik T10

http://www. strobe-statement http://www.strobe-statement.org/fileadmin/Strobe/uploads/checklists/STROBE_checklist_v4_cohort.pdf Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

SPSS-baserad biostatistik Bo Hedblad SPSS-baserad biostatistik Bo Hedblad Biostatistik T10

Statistical Package for Social Science SPSS Statistical Package for Social Science Bo Hedblad Biostatistik T10

En variabel = en kolumn i ett datablad (Normalt en rad per deltagare) Variabler En variabel = en kolumn i ett datablad (Normalt en rad per deltagare) Variabler Deltagare = ”id” Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Obs! Intervall och kvotskala i SPSS: Scale Olika skaltyper Nivå Informationsmängd en ökar Nominalskala =Klassificering.Jfr. nomenklatur, namn (ex. nummer på fotbollspelare, kön) Ordinalskala Kan rangordnas. Jfr. Ordning, eng. order (ex. betyg: 1-5) Intervallskala Skillnaderna mellan mätvärdena är lika (ex. temperatur i Celsius) Kvotskala Intervallskala med absolut nollpunkt. (ex. ålder, vikt, blodglukos) Obs! Intervall och kvotskala i SPSS: Scale Bo Hedblad Biostatistik T10

Vilken information (vilka variabler) har/vill Du samla(-t) eller analysera för varje individ? Kvalitativa variabler Icke numeriska, innebär (Kategoriska) klassificering (t.ex. kön, civilstånd) Kontinuerliga variabler Numeriska mätvärden, (t.ex. blodtryck, vikt) Diskreta variabler Kvantitativa variabler som bara kan visa vissa värden, (t.ex. antal barn, antal läkarbesök) Kvantitativa Bo Hedblad Biostatistik T10

Sammanfattning: Olika skaltyper VARIABEL KVALITATIVA DATA (kategoriska) KVANTITATIVA DATA (numeriska) NOMINALDATA Utan inbördes ordning ORDINALDATA Med inbördes ordning DISKRETA DATA Kan endast anta vissa värden KONTINUERLIGA DATA Kan anta i princip vilka värden som helst Bo Hedblad Biostatistik T10

MÄTKVALITET Bo Hedblad Biostatistik T10

Variationskällor. Mätning av diastoliskt blodtryck FÖRUTSÄTTNING DISTRIBUTION VARIATIONSKÄLLA En patient. En observer. Upprepade observationer vid samma tillfälle på dygnet Mätning En patient. Många observer, vid samma tillfälle på dygnet En patient. En observer. Upprepade observationer, under dygnet Biologi + Mätning Många patienter DBP mmHg 60 70 80 90 100 110 120 130 Bo Hedblad Biostatistik T10 Boe J, et al. Acta Med Scand 1957; 321

Några grundbegrepp Precision Mått på reproducerbarhet Motsatsen till ’random errors’ (slumpvisa fel) Validitet Att man verkligen har undersökt det man ville undersöka och ingenting annat. Motsatsen till ’bias’ (systematiska fel) Bo Hedblad Biostatistik T10

Validitet och precision VALIDITET (giltighet) Hög Låg Hög A B PRECISION (tillförlitlighet) Frekvens C D Låg Mått Den blå linjen representerar de sanna värderna Bo Hedblad Biostatistik T10

PRECISION - reproducerbarhet Samma resultat vid upprepade tester? Påverkas av slumpmässiga fel (’random errors’) Intra-observer variation - gör samma undersökare samma bedömning vid olika tillfällen? Inter-observer variation - gör olika undersökare samma bedömning? Överenstämmelsen uttrycks som: - Coefficient of variation (CV (%): SD dividerat med X) - Agreement / Kappa-värden (stat test på agreement) Bo Hedblad Biostatistik T10

Beskrivande Statistik Biostatistik Beskrivande Statistik Analytisk Statistik Grafisk presentation Exempel: Histogram Spridningsmått Exempel: Medelvärde Standardavvikelse Gruppjämförelse Exempel: t-test, F-test CHI-2 Sambandsanalyser Exempel: Korrelationsanalys Regressionsanalys Bo Hedblad Biostatistik T10

Beskrivande statistik Många syften: Sammanfatta resultat Underlag för att bedöma jämförbarhet hos de grupper som studeras generaliserbarhet ev. konsekvenser av bortfall Överblick över datamaterialets sammansättning upptäcka skevheter eller direkta felaktigheter Bo Hedblad Biostatistik T10

Hur beskriva data? Tabeller Diagram Text Bo Hedblad Biostatistik T10

Hur beskriva kvalitativa eller diskreta variabler? Antal (procent), n (%) Antal (kumulativ procent) Stolpdiagram Trappstegskurva Typvärde Bo Hedblad Biostatistik T10

TABELLER OCH DIAGRAM FÖR ATT BESKRIVA KVALITATIVA VARIABLER Antal (procent), n (%) Antal (kumulativ procent) Stolpdiagram Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Hur beskriva kvantitativa variabler? Histogram Box plot Medelvärde Median Bo Hedblad Biostatistik T10

TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Histogram Outliers, extremvärden Boxplot Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Boxplot Outliers = O * Extreme outliers (>3 ggr boxens höjd) 1.5 ggr boxens höjd Högsta värde IQR (kvartilavstånd) = Q1 – Q3 Q3 = 75:e percentilen Median Q1 = 25:e percentilen Lägsta värde (eller 1.5 ggr boxens höjd) Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Centralmått Medelvärde (aritmiskt) Mätvärdena adderas och divideras med antalet mätvärden. Endast vid kvantitativa variabler. Median ’Mittenvärdet’. Det värde som gör att lika många värden är lägre och högre. Bra metod om det finns avvikare (s.k. ’out-liers’) med mycket höga eller låga värden. Typvärde Det mest vanligaste värdet i data. Kan användas i alla data (ordinaldata, diskreta och kontinuerliga data). Bo Hedblad Biostatistik T10

TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Histogram Typvärde Boxplot Bo Hedblad Biostatistik T10

Spridningsmått Kvartil-(percentil) värden Delar ett material i 4 (100) lika delar. Interkvartilavstånd Skillnaden mellan 1a (25%) och 3e (75%) kvartilgränsen Range (variationsvidd) Avståndet mellan högsta (max) och lägsta (min) värde. Standardavvikelse (SD). SD=√variansen Bo Hedblad Biostatistik T10

TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER SE = SD/√n Error bar 95% konfidensintervallet (CI) Bo Hedblad Biostatistik T10

Normalfördelning (Gauss distribution) eller ej Bo Hedblad Biostatistik T10

Normalfördelning eller ej -2SD Medel +2SD -1SD +1SD Vid normalfördelning: 66% av observationerna inom x±1SD 95% av observationerna inom x±2SD 99% av observationerna inom x±3SD 95% av individerna Bo Hedblad Biostatistik T10

Symmetrisk fördelning Normalfördelningskurva Positiv sned fördelning Normalfördelningskurva Bo Hedblad Biostatistik T10

Val av genomsnitts- och spridningsmått hör ihop Är data symmetriskt fördelade: välj medelvärde och standardavvikelse Är data snedfördelade: välj median och interkvartiler (IQ) alternativt percentiler Om små grupper: överväg spridningsmått som min och max. Bo Hedblad Biostatistik T10

Standard deviation (SD) Standard error (SE, medelfel) SD = mått på genomsnittlig avvikelse från medelvärdet Mått på osäkerheten: anges som konfidensintervall SD = √variansen Standard error (SE, medelfel) SE = mått på osäkerheten i uppskattat medelvärdet för gruppen dvs beskriver medelfelet vid urvalet (stickprovet) SE = SD/√n Bo Hedblad Biostatistik T10

Konfidensintervall (CI el KI) Anger osäkerheten i en punktskattning, ett nmedelvärde, skillnaden mellan två medelvärden, en andel, eller skillnaden mellan två andelar Beräknas utifrån formeln: punktskattningen (x) ± konstant (C) · medelfelet (SE) Konstanten vid olika konfidensgrader: Konfidensgrad 90% ⇒ c=1,64 Konfidensgrad 95% ⇒ c=1,96 Konfidensgrad 99% ⇒ c=2,58 CI av ett medelvärde (x): CI av en andel (q): Bo Hedblad Biostatistik T10

Skilj på standardavvikelse (SD) och Standard Error (SE)! SD och SE uttrycker olika saker Rökare Icke rökare Individer Grupper Bo Hedblad Biostatistik T10

Bakgrund: Den akuta effekten av rökning innebär bl. a Bakgrund: Den akuta effekten av rökning innebär bl.a. ökad puls och ökat blodtryck. Har rökare högre blodtryck än icke rökare? HYPOTES Bo Hedblad Biostatistik T10

ICKE RÖKARE RÖKARE Histogram Visar distributionen, medelvärdet och SD Bo Hedblad Biostatistik T10

Testa hypoteser Noll-hypotesen Alternativhypotesen Fråga: Har rökare högre systoliskt blodtryck än icke-rökare? Två hypoteser kan formuleras: Noll-hypotesen Det finns ingen skillnad i blodtryck mellan rökare och icke-rökare (=H0) Alternativhypotesen Det finns en skillnad (=HA). Ett p-värde räknas fram med ett statistiskt test t.ex. Students t-test. Bo Hedblad Biostatistik T10

Hypotestestning Hur stor är sannolikheten att denna skillnad uppkommer av slumpen? Eller: Om man tar 2 stickprov från samma population, hur ofta får man då en sådan skillnad? P-värdet beskriver hur stor sannolikheten är att denna skillnad uppkommit av slumpen Bo Hedblad Biostatistik T10

Slumpfynd? P-värde Rökare Icke-rökare Variabel SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 703 Bo Hedblad Biostatistik T10

Population och stickprov Deltagare ”Stickprov” Ex. Blodtrycket Medelvärdet i populationen = µ SD i populationen = δ Medelvärdet i stickprovet = (x) Precisionen (SD) i stickprovet = (s) Icke-deltagare Bo Hedblad Biostatistik T10

Population och stickprov Statistisk inferens, statistisk dataanalys och statistisk slutledning: Via att bestämma stickprovets (x) och (s) kan vi förutsäga sannolikheten för överenstämmelse med medelvärdet resp standardavvikelse (δ) i populationen (µ) µ skattas med hjälp av x inferens Stickprovets x beräknas µ okänt Bo Hedblad Biostatistik T10

Alternativhypotes (HA) Urval Urval Variabel Rökare Ej rökare SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 HA: PopRök Pop Ej rök 703 SBP Bo Hedblad Biostatistik T10

Noll hypotes (H0) SBP SBP Urval Urval Variabel Rökare Ej rökare Poprök Pop Ej rök Urval Urval SBP Variabel Rökare Ej rökare SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 HA: Poprök Pop Ej rök 703 SBP Bo Hedblad Biostatistik T10

Blodtrycksnivån är lika, dvs det finns ingen skillnad H0: Noll hypotes (H0) Poprök Pop Ej rök Urval Urval SBP Variabel Rökare Ej rökare SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 HA: Poprök Pop Ej rök Blodtrycksnivån är lika, dvs det finns ingen skillnad H0 säger att slumpen orsakat den observerade skillnaden, våra stickprov kommer från två olika populationer 703 SBP Bo Hedblad Biostatistik T10

Variabler Kvantitativa Kvalitativa Normalfördelade mätdata Snedfördelade mätdata Icke parametriska test Exempel: CHI-2 Parametriska test Exempel: t-test, F-test, Anova Linjär regression Icke parametriska test Exempel: Rangkorrelation Bo Hedblad Biostatistik T10

Parametriska och icke-parametriska test Bygger på antaganden hur data fördelar sig Baseras på observationernas faktiska värde Skattar en effekt för vilken man kan beräkna p-värde och CI (konfidensintervall) Icke-parametriska test Kan användas oberoende hur data fördelar sig Baseras på observationernas ranger Beräknar endast p-värde Bo Hedblad Biostatistik T10

Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Normalfördelad Student’s t-Test Paired t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10

Students t-test Testet kan användas då: man jämför en kvantitativ variabel (dvs medelvärden) mellan 2 grupper den kvantitativa variabeln bör vara normalfördelad Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Skilj på dessa p-värden!!! Students t-test Skilj på dessa p-värden!!! Bo Hedblad Biostatistik T10

Students t-test Ange skillnader mellan grupperna som: Medeldifferens (95% CI) Obs: Skilj på p-värdet mellan ”Levene’s Test for Equality of variances” och ”T-test for Equality of means” Levene’s test anger statistiskt om det genomsnittliga avvikelsen (SD) från medelvärdet skiljer sig mellan grupperna. Bo Hedblad Biostatistik T10

P-värde Urval Urval Variabel Rökare Ej rökare SBP (mmHg) 135±21 145±22 Poprök Pop ej rök Urval Urval Variabel Rökare Ej rökare SBP (mmHg) 135±21 145±22 DBP (mmHg) 81±14 88±14 Totalt (n) 436 267 HA: T- test Poprök Pop ej rök 703 T = 5.8 , p < 0.001 Bo Hedblad Biostatistik T10

H0: P-värde Poprök Pop ej rök Sannolikheten att de två stickproven kommer från två populationer med lika systoliskt blodtryck är < 1% = αlfa-fel Urval Urval Karakt Rökare Ej rökare SBP (mmHg) 135±21 145±22 DBP (mmHg) 81±14 88±14 Totalt (n) 436 267 HA: T- test Poprök Pop ej rök Om p>0.05 och konklusionen är att skillnaden man observerat är slumpmässigt betingad finns möjlighten till beta-fel. Risk för beta-fel kan beräknas via power-kalkylering 703 T = 18.1 , p < 0.001 Bo Hedblad Biostatistik T10

P-värde P: probability, sannolikhet. Kan variera från ~0 till 1. Beskriver hur stor sannolikheten är att resultatet beror på slumpen. Om p<0.05 är resultatet ’signifikant’, dvs sannolikheten att resultatet beror på slumpen är <5%. Noll-hypotesen kan då förkastas och vi anser att skillnaden inte kan förklaras av slumpen. Exempel på signifikanta p-värden: p<0.05, p=0.49, p=0.00001 Exempel på icke signifikanta p-värden: p>0.05; p=0.685;p=0.051 Bo Hedblad Biostatistik T10

Alfa och beta fel i en studie Results of the Study Reality Exposure shows An Effect Exposure shows No Effect Exposure shows An effect Correct Type I error (α) “False positive” Exposure shows NO effect Type II error (β) 1 – β (Power) “False negative” Bo Hedblad Biostatistik T10

p = 0.049 ”VIVE LA DIFFERENCE”! p = 0.051 Bo Hedblad Biostatistik T10

P-värde: sammanfattning Om p < 0.05 Vi förkastar nollhypotesen – alternativhypotesen gäller Vi antar att det finns en faktisk skillnad Om p ≥ 0.05 Vi kan inte förkasta nollhypotesen Vi har inte kunnat påvisa några samband, skillnader, effekter eller olika fördelningar Bo Hedblad Biostatistik T10

kvalitativa variabler Hypotesprövning för kvalitativa variabler Fråga: Skiljer sig högt blodtryck mellan rökare och icke-rökare? Hur stor är sannolikheten att denna skillnad beror på slumpen? Eller: Hur ofta uppkommer en sådan skillnad om stickproven kommer från samma population? Bo Hedblad Biostatistik T10

Variabler Kvantitativa Kvalitativa Normalfördelade mätdata Snedfördelade mätdata Icke parametriska test Exempel: CHI-2 Parametriska test Exempel: t-test, F-test, Anova Linjär regression Icke parametriska test Exempel: Rangkorrelation Bo Hedblad Biostatistik T10

Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Normalfördelad Student t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10

Chi2-testet (= Pearsons’ chi-square) När man jämför kvalitativa variabler (dvs proportioner) i två eller fler grupper. Bo Hedblad Biostatistik T10

Chi2-testet Bo Hedblad Biostatistik T10

Chi2-testet Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

PAUS Bo Hedblad Biostatistik T10

Hypotestestning Den akuta effekten av rökning innebär bl.a. ökad puls och ökat blodtryck. Emellertid har rökare lägre blodtryck än icke-rökare i de flesta befolkningsstudier. Frågor: Hur ser sambandet kroppsvikt (BMI i tre klasser: normalviktiga/överviktiga/obesa) och blodtryck ut? Har rökare lägre blodtryck pga lägre kroppsvikt? Bo Hedblad Biostatistik T10

Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, Ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Normalfördelad Student t-Test Paired t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10

Hur ser sambandet ut mellan kroppsvikt och rökning? Analys av 2 kategoriska variabler: här passar Chi-2 testet Bo Hedblad Biostatistik T10

Hypotesprövning för icke normalfördelade kvantitativa variabler Frågeställning: Är triglyceridnivån högre hos obesa än överviktiga och normalviktiga? Hur ser variabeln triglycerider ut? Kontinuerliga eller kategoriska data? Om kontinuerliga data, normalfördelade eller ej? Bo Hedblad Biostatistik T10

Positiv snedfördelning Testa normalfördelning: tex via histogram, kurtosis (’toppighet’), skewness (’skevhet’) Positiv snedfördelning A Variansanalys Logaritmera Tg 2 oberoende stickprov t.ex. Mann-Whitney B Icke parametriska test k oberoende stickprov t.ex. Kruskal-Wallis Bo Hedblad Biostatistik T10

ANOVA - Univariat Analys av Variansen Logaritmera Tg ANOVA - Univariat Analys av Variansen Bo Hedblad Biostatistik T10

Hur ser sambandet ut mellan triglycerider och kroppsvikt? Analys av en kvantitativ logaritmerad normalfördelad variabel i olika grupper (kategorisk variabel): här passar ANOVA (’variansanalys’) metoden Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Hypotesprövning för icke normalfördelade kvantitativa variabler Frågeställning: Är triglyceridnivån högre hos obesa än överviktiga och normalviktiga? Hur ser variabeln triglycerider ut? Kontinuerliga data Ej normalfördelade Bo Hedblad Biostatistik T10

Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Normalfördelad Student t-Test Paired t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10

Icke parametriska test Kruskal-Wallis Test Mann-Whitney Test Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Bakgrund: Den akuta effekten av rökning innebär bl.a. ökad puls och ökat blodtryck Emellertid har rökare lägre blodtryck än icke-rökare i de flesta studier Kan bero på att rökare har lägre kroppsvikt Frågeställning: Är blodtrycket relaterat till kroppsvikt? Fundera alltid på: Vilken typ av variabler ingår i analysen? Vilken statistiskt test är lämplig? Hur presentera data? Bo Hedblad Biostatistik T10

Är blodtrycket relaterat till kroppsvikt? Frågeställning: Är blodtrycket relaterat till kroppsvikt? Vilken typ av variabler? Kontinuerliga, kategoriska Hur presentera data? Figur, tabell Vilken test? Korrelation, ANOVA, Chi-square Bo Hedblad Biostatistik T10

Hur ser sambandet ut mellan blodtryck och kroppsvikt? Analys av en kvantitativ normalfördelad variabel i olika grupper (kategorisk variabel): här passar ANOVA (’variansanalys’) metoden Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Är blodtrycket relaterat till kroppsvikt? Frågeställning: Är blodtrycket relaterat till kroppsvikt? Vilken typ av variabler? Kontinuerliga, kategoriska Hur presentera data? Figur, tabell Vilken test? Korrelation, ANOVA, Chi-square Bo Hedblad Biostatistik T10

Nonparametric correlations Föutsättning: Normalfördelade variabler! Nonparametric correlations Vid snedfördelade variabler! Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Hypotesprövning av 2 kvantitativa variabler Korrelationskoefficient (Pearsons’ correlation). Beskriver hur väl en scatterplot ansluter till en rät linje. Kan variera från –1 till +1. Fråga: Har blodtrycket ett samband med kroppsvikten? Scatterplot (spridningsdiagram) för systoliskt blodtryck och BMI. Korrelationskoefficienten r=0.26 (r2=0.07), n=696 (7 missing), p=0.0000000000026 (p<0.001) Bo Hedblad Biostatistik T10

Fråga: Har triglyceridnivån ett samband med kroppsvikten? Hypotesprövning av 2 kvantitativa variabler: Fråga: Har triglyceridnivån ett samband med kroppsvikten? Scatterplot (spridningsdiagram) för triglycerider och BMI. r = 0.23, r2 = 0.05, p<0.001, n= 688 KORREKT???? Bo Hedblad Biostatistik T10

Correlations Nonparametric correlations Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Exempel på olika korrelationer (r) Beskrivning av relationen: Perfekt positivt samband Perfekt negativt samband Starkt positivt samband Starkt negativt samband Inget samband Icke-linjärt samband Exempel på r: 1.0 -1.0 0.75 -0.75 Korrelation ej lämplig Bo Hedblad Biostatistik T10

Scatterbilder säger mer än siffror och tabeller 10 20 30 40 50 60 70 80 14 16 18 22 24 26 28 32 34 36 r= -0.40 p= 0.003 Bo Hedblad Biostatistik T10

Samma r-värde men helt olika samband! 10 20 30 40 50 60 70 80 28 32 34 36 38 42 r=0.53 p<0.0001 Samma r-värde men helt olika samband! 10 20 30 40 50 60 70 80 -,05 ,05 ,1 ,15 ,2 ,25 ,3 ,35 ,4 r=0.51 p=0.0001 Bo Hedblad Biostatistik T10

Hypotesprövning av 2 normalfördelade kvantitativa variabler Linjär regression Bo Hedblad Biostatistik T10

Enkel linjär regression Kopierat ifrån Björk J, Praktisk statistik för medicin och hälsa, s. 209, Studentlitteratur Bo Hedblad Biostatistik T10

Enkel linjär regressionsmodell Genomsnittsmodell vs. Individuell modell y = utfallsvariabel x = förklarande variabel  (ekvationens konstant, eller skärning (intercept)),  (ekvationens riktningskoefficient eller lutningskoefficient (slope)) är regressionsparametrar vilka uppskattas utifrån observerade data Individuell modell:  = naturlig variation i data (felterm (residual), dvs. avvikelse från modellen) y =  +  * x +  Avståndet från en observation till linjen kallas för observationens residual. Storleken ( ) blir ett mått på hur mycket av den naturliga variationen i y man kan förklara genom att känna till värdet på x. Bo Hedblad Biostatistik T10

Hur samvarierar FEV1.0 och BMI? Hypotesprövning: 2 kvantitativa variabler Påverkas lungfunktionen av kroppsvikten? Hur samvarierar FEV1.0 och BMI? Är sambandet oberoende av rökning? Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Förklaringsgrad (här justerat r2) anger hur mycket av variationen i y (här FEV1.0) som förklaras av ingående variabler x (BMI) och z (rökning) Bo Hedblad Biostatistik T10

Massignifikans Om man gör ett statistiskt test är sannolikheten 5% att man får ett signifikant resultat även om nollhypotesen är sann (dvs om det inte finns någon skillnad mellan grupperna). Om man gör ytterligare ett test har man även denna gång 5% chans att få signifikant resultat. Om man gör 100 test kan 5 resultat förväntas bli signifikanta även om det inte finns någon skillnad mellan grupperna. Med datorns hjälp är det lätt att göra många analyser. Man bör undvika att göra många analyser utan en bra hypotes och att övertolka enstaka signifikanta värden. Bo Hedblad Biostatistik T10

”The multifactorial web of causation” Omgivning Livsstil Genetik Sjukdom = f (ax1 + bx2 + cx3 + ………) Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

BIAS och CONFOUNDING Bo Hedblad Biostatistik T10

Två huvudsakliga typer av bias Selection bias och information bias Dessa kan sedan delas in i ett stort antal specifika typer Confounding bias är en tredje typ som ofta hanteras separat Bo Hedblad Biostatistik T10

En störfaktor kan förklara CONFOUNDING (“störfaktorer”) En störfaktor kan förklara ett skensamband Bo Hedblad Biostatistik T10

Confounding - Vad är en confounder? - Hur känner man igen en confounder? - Vilka metoder finns att ta hänsyn till confounding? - När och hur skall man justera för en confounder? Bo Hedblad Biostatistik T10

Confounding ’ En störfaktor (’CF’) som förklarar relationen mellan exponering (’E’) och utfall (’O’)’ O E CF Bo Hedblad Biostatistik T10

Exempel på confounding Ojusterad RR >> Sann RR=1 Gula fingrar Hjärtinfarkt Rökning Bo Hedblad Biostatistik T10

Exempel på confounding Ojusterad risk << sann risk Hjärtinfarkt Högt BMI Rökning Bo Hedblad Biostatistik T10

Confounder ”Störfaktor” CF En ”störfaktor” måste vara: En kausal riskfaktor för utfallet Samvariera med exponeringen Ska inte vara en effekt av utfallet eller en intermediär faktor ”Störfaktorns” effekt beror på: Styrkan på sambandet mellan ”störfaktorer” och utfall bland exponerade och oexponerade Prevalens av ”störfaktorn” Inte svårt i teorin, men ofta mycket komplext i verkliga livet !! Bo Hedblad Biostatistik T10

Hur väljer man ’confounding factors’? A priori ? Datadriven strategi? Kombination av båda? CF Undvik justera för faktorer i orsakskedjan eller faktorer som inte är riktiga confounders! - Antal events som ingår i analysen? Inte svårt i teorin, men ofta mycket komplext i verkliga livet !! Bo Hedblad Biostatistik T10

Confounding – 2 senarios A) CF = confounder B) CF = sannolikt ej confounder utan en mediator Bo Hedblad Biostatistik T10

Reverse confounding Exponeringsvariabeln påverkas av utfallet (som vid tidpunkten kan vara odiagnosticerat), och en del av orsakskedjan. Exempel: Är låg fysisk aktivitet (E) en risk faktor för övervikt (O) ? Eller är den fysiska aktiviteten låg eftersom individen är överviktig? Exempel: Hypertoni är en risk faktor för kranskärlssjukdom. Men antihypertensiv behandling är oftast indicerad för patienter med kranskärlssjukdom, dessa kommer att bli hypertensiva per definition. Bo Hedblad Biostatistik T10

Confounding p.g.a. omätta eller dåligt mätta variabler Residual Confounding Confounding p.g.a. omätta eller dåligt mätta variabler De variabler vi justerar för korrigerar inte för confounding fullt ut Orsak: Variabeln har dålig precision Multivariatmodellen passar dåligt Frånvaro (“missing”) av data Bo Hedblad Biostatistik T10

Confounding by Indication När ett symtom eller tecken på sjukdom kan ses som en indikation (eller kontraindikation) för en viss terapi och därför både är associaterad med terapi och sannolikhet för utfallet. Exempel – de effektivaste astmaläkemedlen skrivs ut till de svårast sjuka patienterna. Dessa läkemedel kan därför vara associerade med ökat insjuknande i astmaexacerbationer. Exempel – Statiner förskrivs till patienter med hög kardiovaskulär risk. Incidensen kan därför vara högre bland patienter med statiner. Bo Hedblad Biostatistik T10

Vilka metoder finns att ta hänsyn till confounding (’störfaktorer’)? Bo Hedblad Biostatistik T10

Metoder att hantera confounding Confounding (“störfaktorer”) Omätta confounders Mätta confounders Design Restriktion Matchning Analys Standardisering Stratifiering Regression Omätta, men kan mätas i en substudie 2-stegs insamling Imputering Omätbara Design Analys Fall-baserad design Aktiv jämförelsegrupp (restriktion) Instrumental variabel Proxy analys Sensitivitets analys Propensity scores Marginal Structural Models Bo Hedblad Biostatistik T10 Från Schneeweiss, PDS 2006

Sammanfattning: Vilka metoder finns att ta hänsyn till confounding? Stratifiera (tex på en eller flera exponeringsvariabler) Randomisera (skapa jämföra grupper, tex RCT) Matcha (tex på ålder, kön, us-tid. Obs! övermatchning) Statistisk justering: tex, multivariat analys, imputering, Prop Sc Bo Hedblad Biostatistik T10

Statistisk metod att ta hänsyn till confounding (’störfaktorer’)? Multivariat analys Bo Hedblad Biostatistik T10

Vilka metoder finns för statistisk justering av ’confounders’ Multipel linjär regression eller partiell korrelation (när vi studerar sambandet mellan 2 kvantitativa variabler) ANCOVA m.m. när vi jämför medelvärdet av kvantitativa normalfördelade variabler i olika grupper (kategorisk variabel) Logistisk regression (när vi studerar en ja / nej variabel) Cox proportional hazard regression vid en prospektiv studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’) av sjukdom i olika grupper (tex kliniska försök, RCT) Bo Hedblad Biostatistik T10

Vilka metoder finns för statistisk justering av ’confounders’ Multipel linjär regression eller partiell korrelation (när vi studerar sambandet mellan 2 kvantitativa variabler) ANCOVA m.m. när vi jämför medelvärdet av kvantitativa normalfördelade variabler i olika grupper (kategorisk variabel) Logistisk regression (när vi studerar en ja / nej variabel) Cox proportional hazard regression vid en prospektiv studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’) av sjukdom i olika grupper (tex kliniska försök, RCT) Bo Hedblad Biostatistik T10

Frågeställning: Är högt blodtryck (>=160/95 mm Hg eller BT-behandling) relaterat till rökning oberoende av kroppsvikt (BMI) och fysisk aktivitet (fys_akt) Bo Hedblad Biostatistik T10

Logistisk regression Jämfört med normalviktiga (BMI <25) har överviktiga (BMI 25-29) och obesa (BMI>=30) en statistiskt högre Odds kvot (OR) att ha högt blodtryck (>=160/95 mmHg), OR: 1.6; 95% CI: 1.2 – 2.3 och 2.6; 95% CI: 1.2 – 5.7. Sambandet är oberoende av fysisk aktivitet, kroppsvikt och rökning. OR är signifikant lägre för rökare (0.5; 95% CI: 0.3 – 0.7), oberoende av övriga faktorer. Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Vilka metoder finns för statistisk justering av ’confounders’ Multipel linjär regression eller partiell korrelation (när vi studerar sambandet mellan 2 kvantitativa variabler) ANCOVA m.m. när vi jämför medelvärdet av kvantitativa normalfördelade variabler i olika grupper (kategorisk variabel) Logistisk regression (när vi studerar en ja / nej variabel) Cox proportional hazard regression vid en prospektiv studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’) av sjukdom i olika grupper (tex i kliniska försök, RCT) Bo Hedblad Biostatistik T10

Fråga: Dör rökare tidigare än icke-rökare? Bo Hedblad Biostatistik T10

Skillnader mellan riskmåtten Effektmått – Risk Skillnader mellan riskmåtten Absolut risk Utrycks i händelser per personår Utrycks som en kvot där man jämför med en referensgrupp Relativ risk Bo Hedblad Biostatistik T10

Sannolikhetsfunktionen f(t) (”sannolikheten att överleva en viss tid”) Överlevnadsfunktionen s(t) Kaplan-Meier Hazardfunktionen k(t) (”sannolikheten att dö precis innan Du lever”) Cox regression Prop. Hazards Bo Hedblad Biostatistik T10

sannolikhetsfunktionen överlevnadsfunktionen hazardsfunktionen Bo Hedblad Biostatistik T10

Överlevnadskurvor – Personår av observation Ind. # 1 2 3 4 5 6 7 8 9 10 S=Screening MI S = 4.5 personår 1 S † = 2 personår 2 3 S Em = 4.5 personår S 4 = 7.5 personår etc S 1000 CABG = 7.2 personår Bo Hedblad Biostatistik T10

Överlevnadskurvor ICKE RÖKARE RÖKARE Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Cox regression h(t) = h0(t)e –a+b1x1+b2x2+b3x3 h0(x) b1x1 (tex kön) Bo Hedblad Biostatistik T10

Bo Hedblad Biostatistik T10

Överlevnadsanalys Risken att dö per person-år hos rökare och icke-rökare: Icke-rökarna: De 267 icke-rökarna levde sammanlagt i 3591 år mellan 55 och 68 års ålder. 44 dog. Antal döda per person-år var: 44 / 3591 = 0.012 Rökarna: De 436 rökarna levde sammanlagt i 5567 år mellan 55 och 68 års ålder. 112 dog. Antal döda per person-år var: 112 / 5567 = 0.020 Bo Hedblad Biostatistik T10

Överlevnadsanalys Icke-rökarna: Incidensen är: 44 / 3591 = 0.012 Relativ risk (RR, HR): 0.02 / 0.012 = 1.67 Om risken är 1 hos icke-rökaren så är den 1.67 (67% högre) hos rökaren Bo Hedblad Biostatistik T10

Konfidensintervall Är detta signifikant? Relativ risk: 1.67, 95% konfidensintervall (CI): 1.17 - 2.34. CI = x±c·sd/√n Konfidensintervall: Vid upprepade stickprov från samma population kommer 95% av konfidensintervallen att innefatta det sanna värdet (medelvärde, proportion eller sjuklighet). 1.17 – 2.34 utgör en skattning på osäkerheten i vårt punktestimat. OBS!!! En relativ risk (eller odds kvot) är signifikant om 95% konfidensintervallet inte innefattar 1. Bo Hedblad Biostatistik T10

Absolut risk Icke-rökarna: Incidensen är: 44 / 3591 = 0.012 *1000 = 12 per 1000 personår Rökarna: Incidensen är: 112 / 5567 = 0.020 *1000 = 20 per 1000 personår Absolut risk: 20 - 12 = 8 per 1000 personår Relativ risk: 1.67 = 67% Bo Hedblad Biostatistik T10

BIAS “systematiskt fel” Bo Hedblad Biostatistik T10

Bias – ett systematiskt fel Ger ett felaktigt estimat eller en felaktig uppskattning av sambandet Kan visa ett samband där det inte finns något Kan dölja ett samband där det finns ett Bias uppträder i design och genomförandefasen av en studie Kan ofta inte åtgärdas i analysfasen Finns i alla typer av studier - experimentella & observationsstudier Är inte antingen eller – bias är alltid närvarande. Mycket av träningen handlar om att värdera när bias är ett problem eller inte. Epidemiology is observational discipline, so uncontrolled variables abound Most of training is in recognizing and accounting for sources of bias, often extremely subtle Less emphasis on role of chance, often handed over to biostatisticians Bo Hedblad Biostatistik T10

Två huvudsakliga typer av bias Selection bias och information bias. Dessa kan sedan delas in i ett stort antal specifika typer Confounding bias är en tredje typ som ofta hanteras separat Bo Hedblad Biostatistik T10

Typer av bias. Del 1 J Epidemiol Community Health 2004;58:635–641. Bo Hedblad Biostatistik T10 J Epidemiol Community Health 2004;58:635–641.

Typer av bias. Del 2 Bo Hedblad Biostatistik T10

Types of bias part 3 J Epidemiol Community Health 2004;58:635–641. Bo Hedblad Biostatistik T10

Selection bias Exempel: Felaktigt val av fall och kontroller Frivillig-bias Healthy worker effect Exklusioner pga missing data Immortal time bias Incidence-prevalence bias (selektiv överlevnad) Health care access bias Bo Hedblad Biostatistik T10

Information bias Exempel Missklassificering av exponering Missklassificering av utfall Recall bias Reporting bias Protopathic bias Ecological fallacy Numerator-denominator bias Bo Hedblad Biostatistik T10

Orsaker till bias ? Vilken är studiebasen? Har alla haft samma sannolikhet att komma med i studien? Har alla exponerade haft samma sannolikhet att bli identifierade som exponerade? Valida och enhetliga mätmetoder? Kan exponeringen ha påverkats av subklinisk sjukdom? Är alla endpoints med? Har alla utfall haft samma chans att bli identifierade och inkluderade i studien? Vid överlevnadsanalyser – när startar och när stoppar klockan? Finns det konkurrerande utfall? Bo Hedblad Biostatistik T10

Standardisering Bo Hedblad Biostatistik T10

Standardisering En metod att ta hänsyn till skillnader mellan grupper. Oftast standardiserar man för skillnader i ålder och / eller kön, men det kan också gälla andra skillnader. DIREKT STANDARDISERING, exempel I två städer är befolkningen ungefär lika stor (79600 respektive 85000). Dödligheten är 14 respektive 11 per 1000 person-år. Det finns emellertid skillnader i ålder - i STAD 1 finns fler unga invånare medan STAD 2 utgör en äldre befolkning. Finns det någon skillnad i dödlighet om man tar hänsyn till åldersskillnaden? Räkna ut incidensen i varje åldersgrupp för sig (6 åldersgrupper). I detta fall låter vi alla åldersgrupper få samma vikt genom att multiplicera alla incidenser med 0.1666 (1 / 6). Bo Hedblad Biostatistik T10

Standardisering Standardiserad incidens: STAD 1 STAD 2 Ålder (år) Vikt (andel) Antal döda Befolkning Incidens per 1000 person-år 25-34 0.166 70 14000 5 9 10000 0,9 35-44 150 23000 6,5 15 19000 0,79 45-54 190 18000 10,6 30 16000 1,9 55-64 200 13000 15,4 100 15000 6,7 65-74 300 8600 34,8 250 17,9 75-84 3000 66,7 500 11000 45,5 Totalt 1.00 1110 79600 14 904 85000 11 Standardiserad incidens: STAD 1: (5+6.5+10.6+15.4+34.8+66.7)*0.1666 = 24 per 1000 personår STAD 2. (0.9+0.79+1.9+6.7+17.9+45.5)*0.1666 = 12.3 per 1000 personår I detta exempel har alla åldersgrupper fått samma vikt (en sjättedel). Det är också möjligt att ge yngre åldersgrupper större betydelse genom att vikta på annat sätt. Bo Hedblad Biostatistik T10

Standardisering RR: 24 / 12.3 = 1.95 Standardiserad incidens: STAD 1 STAD 2 Ålder (år) Vikt (andel) Antal döda Befolkning Incidens per 1000 person-år 25-34 0.166 70 14000 5 9 10000 0,9 35-44 150 23000 6,5 15 19000 0,79 45-54 190 18000 10,6 30 16000 1,9 55-64 200 13000 15,4 100 15000 6,7 65-74 300 8600 34,8 250 17,9 75-84 3000 66,7 500 11000 45,5 Totalt 1.00 1110 79600 14 904 85000 11 RR: 24 / 12.3 = 1.95 Standardiserad incidens: STAD 1: (5+6.5+10.6+15.4+34.8+66.7)*0.1666 = 24 per 1000 personår STAD 2. (0.9+0.79+1.9+6.7+17.9+45.5)*0.1666 = 12.3 per 1000 personår I detta exempel har alla åldersgrupper fått samma vikt (en sjättedel). Det är också möjligt att ge yngre åldersgrupper större betydelse genom att vikta på annat sätt.

Indirekt standardisering SMR (standardized mortality rate) Anger dödlighet som observerats om det förväntade antalet är 100. Ofta jämför man med en stor population, tex Sveriges befolkning 1990, som alltså får talet SMR = 100. Bo Hedblad Biostatistik T10

Litet schema för val av statistisk metod Två kvalitativa variabler (ex. kön, rökare, hypertoniker). Gör 4-fältstabell och Chi-2 test. Jämföra medelvärde i två grupper. (ex. vikt eller blodtryck hos rökare-ickerökare). Använd t-test, ANOVA Samband (”grad av rätlinjighet”) mellan två kvantitativa variabler. Använd Pearsons’ korrelation coefficient. Vid små material (<30 individer) och icke normalfördelade material: Använd icke-parametriska test. t-test ersätts med Mann-Whitney U-test eller Pearsons korrelation med Spearman. Om Du gjort upprepat test på samma individer, t.ex. blodtryck före och efter vårdtillfället. Använd parade tester, tex parat t-test. Bo Hedblad Biostatistik T10

Likabedömning Gör läkare samma bedömning av en grupp patienter? 2 läkare möter samma pat och oberoende av varandra föreslås beh A, B eller C. Läkarna föreslår beh på 25 patienter. Fråga: Gör läkarna samma bedömning i gruppen? Kappa (κ) test: Enligt Robert Altman: < 0.2 = slumpen 0.21-0.4 = svag överenstämmelse 0.41-0.60 = måttlig överenstämmelse 0.61-0.80 = god överenstämmelse 0.81-1.00 = stark överenstämmelse Bo Hedblad Biostatistik T10

Likabedömning Gör läkare samma bedömning av en grupp patienter? 2 läkare möter samma pat och oberoende av varandra föreslås beh A, B eller C. Läkarna föreslår beh på 25 patienter. Fråga: Gör läkarna samma bedömning i gruppen? Kappa (κ) test: Enligt Robert Altman: < 0.2 = slumpen 0.21-0.4 = svag överenstämmelse 0.41-0.60 = måttlig överenstämmelse 0.61-0.80 = god överenstämmelse 0.81-1.00 = stark överenstämmelse Bo Hedblad Biostatistik T10

MEDELVÄRDESREGRESSION 125 Mättillfälle 1 (M1, svart prick): 500 patienter: x= 95 ± 8 mmHg Mättillfälle 2 (M2, vit prick): 500 patienter: x = 95 mm Hg Korrelation (r) mellan mättillfälle 1 och 2 = 0.6 Om mäter bara patienter med DBP ≥ 95 mm Hg M1: 101.4 mm Hg M2: 98.8 mm Hg 115 105 95 Mättillfälle 2 (DBP mmHg) 85 75 65 65 75 85 95 105 115 125 Mättillfälle 1 (DBP mmHg) -2.6 mmHg ”Fenomenet” orsakas av mätosäkerhet och inom patientvariation Bo Hedblad Biostatistik T10

MEDELVÄRDESREGRESSION KAN FÖRORSAKA MISSVISANDE RESULTAT SOM: Relaterande av förändring mot ingångsvärdet Tex r = - 0.45 (M1 vs M2-M1) Undersökning av effekter i subgrupper Tex av grupper med ”extrema” värden Publikationsbias Tex många ”fynd” uppvisar påtaglig regression mot medelvärdet i senare jämförbara studier (t.ex. hsCRP och CV risk) Bo Hedblad Biostatistik T10

POWER BERÄKNING – några Web adresser http://www.dssresearch.com/toolkit/default.asp PS Power and Sample Size Calculation Enkelt, lätt att använda Kan laddas ned gratis via http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/ PowerSampleSize G*Power 3 Mer avancerat, något svårare att använda Kan laddas ned gratis via http:// www.psycho.uni-duesseldorf.de/abteilungen/gpower3 Episheet Epidemiologiska dimensioneringsberäkningar http:// www.epidemiolog.net/studymat/ Bo Hedblad Biostatistik T10

ADRESS TILL KORT REDOVISNING AV STATISTISKA METODER http://www.jerrydallal.com/LHSP/bmj.htm Bo Hedblad Biostatistik T10

selektions eller mätningsbias? OBSERVERAT SAMBAND Kan det bero på selektions eller mätningsbias? NEJ Kan det bero på confounding? NEJ Kan det bero slumpen? SANNOLIKT NEJ Kan det vara kausalt? Bo Hedblad Biostatistik T10

En guideline för kausalitet Tidsamband: Kommer orsak före effekten? Rimlighet: Är observerade samband i linje med annan kunskap? Mekanismer, djurförsök Konsistens: Har liknande resultat visats tidigare? Styrka: Vilken styrka finns mellan orsak och verkan? Relativ risk Dos-respons samband: Ger ökad exponering en ökad effekt? Reversibilitet: Ger minskad exponering en minskad risk? Studiedesign: Är resultaten baserade på en stark studiedesign? Bevisbedömning: Hur många olika typer av evidens leder till konklusionen? Bo Hedblad Biostatistik T10

I. Andersson. Studentlitteratur 2006 Värdering av samband Nej Statistiskt samband Samband saknas Ja Bias Påverkan på samband Ja Confounding Konsistens Orsakssamband Styrka Tidsamband Bidra till orsaks samband Rimlighet Dos-respons samband Studiedesign Kausalitet Reversibilitet Bo Hedblad Biostatistik T10 I. Andersson. Studentlitteratur 2006

Styrkan att påvisa kausalitet Värdering av samband STUDIETYP Styrkan att påvisa kausalitet Ekologisk studie Mycket låg Låg Tvärsnittsstudie Fall-kontroll studie Måttlig Stor Kohort studie Stor – mycket stor RCT Låg – Måttlig Samhällsintervention I. Andersson. Studentlitteratur 2006 Bo Hedblad Biostatistik T10