Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Samband mellan kvalitativa variabler Sid
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL10 732G81 Linköpings universitet.
Jämförelse av två populationer Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
Skånes Universitetssjukhus
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Tillämpad statistik Naprapathögskolan
Vibeke Horstmann, Inst för hälsa, vård, samhälle, Centre for Ageing and Supportive Environments Jämförelse av två behandlingar.
2. Enkel regressionsanalys
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Egenskaper för punktskattning
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Statistik Lars Valter Fil.lic. Statistik
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
732G22 Grunder i statistisk metodik
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
Grundläggande statistik, ht 09, AN
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Medicinsk statistik Läkarprogrammet HT Medicinsk statistik Varför behöver Ni kunskap i medicinsk statistik? Självständigt arbete Kunna tolka resultat.
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Statistik för AT-läkare Robert Hahn, Södertälje sjukhus.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Relation mellan variabler – samvariation, korrelation, regression
Grundläggande begrepp
Presentationens avskrift:

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus

Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) –H0: Ingen effekt –H1: Effekt H0 vill man kunna förkasta/avfärda Om H0 förkastas så finns mothypotesen kvar

P-värde P-värdet är en sannolikhet mellan 0 och 1 P-värdet är sannolikheten att man får det resultat man fick (eller ännu mer extremt) om H0 är sann Mer extremt menar man ett värde som ligger längre ifrån nollhypotesen än det värde som man har fått fram Om p-värdet är lågt så är det osannolikt att få det undersökningsresultat eller mer extremt resultat om H0 är sann Ju mer resultatet avviker från det förväntade (enligt H0) desto lägre blir p-värdet

Exempel vilopuls Frågeställning: Har män och kvinnor samma genomsnittspuls? Studiepopulation: Alla män och kvinnor (i Sverige, Norden, Europa etc.) Nollhypotes: Det finns inte någon skillnad. Dvs. skillnaden = 0 I hypotesprövningen antar vi att nollhypotesen är sann i studiepopulationen

P-värde exempel vilopuls Stickprovet består av 10 slumpmässigt valda kvinnor och 10 slumpmässigt valda män I stickprovet har kvinnor i snitt 3 bpm lägre vilopuls än män Det finns två möjliga förklaringar till resultatet: 1.Slumpen har gjort att vi har hittat en skillnad på 3 bpm även om det inte finns någon skillnad i studiepopulationen 2.Det finns en skillnad i studiepopulationen dvs. nollhypotesen stämmer inte

P-värde exempel vilopuls Hur ska vi veta vilket förklaring som gäller? Tittar på sannolikheten för att få resultatet Om skillnaden är 0 i studiepopulationen vad är då sannolikheten att skillnaden är minst 3 bpm i stickprovet? Denna sannolikhet = p-värdet Litet p-värde låg sannolikhet det troligaste är att nollhypotesen inte är sann (dvs. alternativ 2)

P-värde exempel vilopuls Hur vet vi om sannolikheten är liten? Signifikansnivån! Om sannolikheten/p-värdet ligger under signifikansnivån är den liten Om den är större än signifikansnivån är den inte liten

P-värde exempel vilopuls Om p > signifikansnivån ”Stor” sannolikhet att få resultatet även om H 0 är sann ”Stor” sannolikhet att hitta en skillnad på 3 bpm även om skillnaden i studiepopulationen är 0 Förkasta inte H 0 !

P-värde exempel vilopuls Om p < signifikansnivån ”Liten” sannolikhet att hitta en skillnad på 3 bpm om skillnaden i studiepopulationen är sann Förkasta H 0 !

P-värde Utgå från att nollhypotesen är sann P-värdet kan beräknas oavsett om data är normalfördelad eller inte men då används andra metoder Räknas inte ut för hand Jämför teststorheten med tabell Dator

Statistisk signifikans - klinisk relevans Lågt p-värde Hur stor är skillnaden? Statistisk signifikans: ”Det finns en skillnad” Klinisk relevans: ”Har skillnaden någon betydelse?” Skattning av storleken på effekten behövs!

Konfidensintervall P-värden kan tala om ifall det finns en effekt, men inte hur stor effekten är Konfidensintervall visar hur stor effekten är Konfidensintervallets bredd beror av –antalet individer i stickprovet –spridningen (standardavvikelsen) –konfidensgraden – hur säker man vill vara

Konfidensintervall och p-värde Om data är normalfördelade kan hypotesprövning göras med konfidensintervall och p-värde Båda metoderna ger samma resultat givet samma signifikansnivå Konfidensgrad + signifikansnivå = 1 Om H0 ligger utanför 95% KI är p < 5% Om H0 ligger innanför 95% KI är p > 5%

Sammanfattning hypotesprövning Förkasta H 0 om H 0 ligger utanför konfidensintervallets gränser p < signifikansnivån Förkasta inte H 0 om H 0 ligger innanför konfidensintervallets gränser p > signifikansnivån

Gruppjämförelser för kvantitativa mätningar Parametriska metoder –t-test för två oberoende grupper –t-test för parade grupper Icke-parametriska metoder –Mann-Whitney U test för två oberoende grupper –Wilcoxons teckenrangtest för parade grupper

t-test för två oberoende grupper exempel (Maximala) syreupptagningsförmågan bland studenter Två grupper A: Fysisk träning med låg intensitet B: Fysisk träning med medel/hög intensitet

Antaganden bakom t-testet 1.Medelvärdet är ett bra sammanfattande mått 2. Oberoende observationer (t.ex. ingen patient förekommer mer än en gång) 3.Mätningarna är normalfördelade i båda grupperna eller Båda grupperna är stora

Syreupptagning - Deskriptiv statistik

t-test Testvariabel: D = Medelvärde i grupp B – Medelvärde i grupp A H 0 : D = 0, Medelvärde i grupp A = Medelvärde i grupp B H 1 : D  0, Medelvärde i grupp A ≠ Medelvärde i grupp B

Man kan räkna ut ett konfidensintervall för skillnad i medelvärde SE pooled är ett sammanviktat standardfel s 2 pooled är en sammanviktad varians Två oberoende grupper – Exempel: Syreupptagningsförmåga Punktskattningen (n = antal observationer; x = medelvärde; s = standardavvikelse)

t-test för två oberoende grupper Exempel på SPSS-output Två versioner av t-testet beroende på om man kan anta att standardavvikelsen är lika i båda grupperna Levene’s test: p-värde (”Sig.”) testar H 0 : Varians i A = Varians i B P-värden för t-testet Konfidensintervall

Presentera resultat från t-test Deskriptiv statistik för de två grupperna –Medelvärde –Standardavvikelse Skillnad i medelvärde mellan grupperna –Med 95%-konfidensintervall P-värde

Exempel – är t-test lämpligt? Kreatinin hos män och kvinnor Män (n A = 11)Kvinnor (n B = 13) females sex crea Statistics a crea Valid Missing N Mean Minimum Maximum Percentiles sex1 = males a. Statistics a crea Valid Missing N Mean Minimum Maximum Percentiles sex1 = females a. males

Mann-Whitney U test Passar för –Icke-normalfördelad data –Ordinaldata Kallas ibland för Wilcoxons rangsummetest Kräver oberoende mätningar H 0 : fördelningen i grupp A = fördelningen i grupp B H 1 : fördelningen i grupp A ≠ fördelningen i grupp B

Mann-Whitney U test Rangordna alla observationerna från den lägsta till den högsta Beräkna summan av rangerna i grupp A (W A ) respektive grupp B (W B ) Ju större skillnad i medelrang, W A /n A and W B /n B, ju lägre p-värde fås

Mann-Whitney U test Rangsummorna för de två grupperna är – W A =172.5 (män) and W B =127,5 (kvinnor) Medelrangerna är – W A /n A =15.98 and W B /n B =9.81 P-värde beräknas med hjälp av datorprogram till 0.04

Presentera resultat från Mann-Whitney U test Deskriptiv statistik för de två grupperna –Median –Min och Max (eller lämpliga percentiler) P-värde Mediankonfidensintervall finns men används inte så ofta

Parade mätningar Upprepad design – Mätningar vid olika tidpunkter för samma patienter/djur Matchad design –En kontrollperson är matchad med varje patient på t.ex. ålder och kön Parad analys ökar styrkan i testet om matchningsvariabeln är relaterad till den variabeln vi vill undersöka

Parade mätningar -exempel 44 patienter som behandlats för akut lymfatisk leukemi (ALL) som barn 44 kontroller matchade för varje individ beträffande kön, ålder, bostad (stad/landsbygd) och rökvanor. Finns det en skillnad i kardiovaskulära riskfaktorer? –Till exempel fettfri vikt? (Link et al, J Clin Endocrinol Metab 2004)

Parade mätningar - exempel 30,0040,0050,0060,0070,0080,00 Control - Lean weight (kg) 30,00 40,00 50,00 60,00 70,00 80,00 ALL - Lean weight (kg) r  0.59 Matchade faktorer Verkar relaterade till fettfri vikt

Antaganden bakom parat t-test 1. Parade stickprov, beroende inom paren, inget beroende mellan paren 2. Medelvärde är ett relevant summerande mått: H 0 : Medelvärdesskillnaden = 0 3. Skillnaderna mellan paren är normalfördelade eller Det finns så många par att det inte gör något att de inte är normalfördelade

Parade data Icke-parametriskt test Wilcoxons teckenrangtest H 0 : Mediandifferenserna mellan metoderna är noll, och positiva och negativa differenser har samma fördelning H 1 : Mediandifferenserna mellan metoderna är inte noll, eller positiva och negativa differenser har inte samma fördelning

Jämförelse av nominaldata (kategoriska data) Två eller flera kategorier Två eller flera grupper som ska jämföras Exempel –Jämföra andelen överlevande i två behandlingsgrupper –Jämföra andelen som får biverkningar efter behandling på tre olika kliniker

Tester för andelar Ett stickprov – konfidensintervall för andelar (förra föreläsningen) Två stickprov – konfidensintervall för skillnader i andelar Fler stickprov – chi-två-test (ej i denna kurs)

Andelar – Exempel: Huvudvärkstablett A vs B Finns det skillnad mellan män och kvinnor? Två stickprov: Män: n=100; andel som föredrar A=70% Kvinnor: n=100; andel som föredrar A=60% Beräkna KI för skillnader i andelar!

Andelar – Exempel: Huvudvärkstablett A vs B Vid beräkning av KI för skillnad i andelar används formeln: För ”män vs kvinnor” blir 95% KI: TOLKNING!

Samvariation mellan två variabler Ibland vill man undersöka hur två variabler samvarierar Exempel Ålder och njurfunktion Bara samvariation → KORRELATION En påverkar den andra → LINJÄR REGRESSION

Korrelationskoefficienter Korrelationskoefficienter används för att visa hur två variabler samvarierar För normalfördelade data används Pearsons korrelationskoefficient (r) För övriga data används Spearmans korrelationskoefficient (r S ) r S beräknas på ranger i stället för egentliga värden -1 ≤ r ≤ 1

Korrelationskoefficienter r = 1 r = -1 r = 0 r = -0,1

Linjär regression Används då variabeln Y beror på variabeln X Y kallas för den beroende variabeln (”utfall”/”respons”) x kallas för den oberoende variabeln (”förklarande”)

Linjär regression Y=α+βX+e α= skärning (intercept) β= lutningskoefficient (slope) e=residual (variation som inte förklaras av modellen)

Linjär regression Formel för regressionslinjen: y =  + βx  –Kallas ekvationens skärning eller intercept –Kan vara negativ –Påverkar inte β –y =  då x=0

y =  + βx β kallas för ekvationens lutningskoefficient (slope) Tolkningen av β är –För varje enhet x ökar, ökar y β enheter –En individ med en enhet högre x har β enheter högre y β kan vara positiv = ökning β kan vara negativ = minskning β kan vara 0 = y beror inte på x Linjär regression

Linjär regression – villkor För varje värde på x måste y vara normalfördelad Samtliga observationer måste vara oberoende Variansen ska vara konstant Dessa villkor måste vallideras!

Linjär regression – hypotesprövning Man undersöker förhållandet mellan y och x, d.v.s. β Nollhypotesen är hypotesen om ingen effekt H 0 : β = 0 H 1 : β ≠ 0 Hypotesprövningen kan göras med konfidensintervall och p-värde

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? Beroende variabel = DBT = y (den som blir påverkad) Oberoende variabel = vikten (kg) = x (den som påverkar) Skattningar av α och β ger bästa regressionslinjen y = x När vikten är = 0 DBT irrelevant Tolkning: För varje kilo vikten ökar så ökar det DBT med 0.36 mmHg

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? 95% konfidensintervall: 0.33 till 0.40 P-värdet < Förkasta H 0 på 5% signifikansnivå Det finns ett samband mellan vikten och DBT

Residualer I verkligheten ligger sällan observationerna på en exakt linje Det finns en variation i data Variationen kan bero på flera faktorer –Mätbara faktorer som t.ex. ålder och kön –Ej mätbara faktorer som t.ex. genetisk predisposition för viss sjukdom eller mätfel Variationen kan beskrivas med residualer

Variation - residualer residual En residual är skillnaden mellan 1) det faktiska värdet och 2) värdet enligt ekvationen y =  + βx

Modellvallidering Residualerna ska vara –normalfördelade –oberoende –ha konstant varians Detta undersöks med lämpliga figurer

Modellvallidering Plotta residualerna mot x-variabeln –Oberoende (Inget mönster) –Konstant varians (lika stor spridning för alla x)

Ej konstant varians - heterosedastisk 52

Variation – förklaringsgrad Ju bättre modell man använder desto mindre blir residualerna Den del av variationen som förklaras av en modell kallas modellens förklaringsgrad (R 2 ) Flera oberoende variabler i en regressionsmodell

Linjär regression. Exempel: Påverkar vikten det diastoliska blodtrycket (DBT)? R 2 = 0.39 Vikten förklarar 39% av variationen av DBT Förklaringsgraden är kvadraten av Pearsons korrelationskoefficient

Linjär regression – bra att kunna! Tolka ß (och dess KI och p-värde) Vad är ett intercept – när är det av intresse? Förstå vad residualer är R 2