Statistik Lars Valter Fil.lic. Statistik

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
Skånes Universitetssjukhus
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Vetenskaplig utveckling Läkarprogrammet KI HT 2010 termin 4
Workshop i statistik för medicinska bibliotekarier!
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
Sammanfatta siffrorna…
Skattningens medelfel
Grundläggande Biostatistik
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Förelasning 1 Kursintroduktion Statistiska undersökningar
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Sannolikhet Stickprov Fördelningar
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Grundläggande statistik ht 09, AN
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Mål Matematiska modeller Biologi/Kemi Statistik Datorer
Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
732G22 Grunder i statistisk metodik
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Medicinsk statistik Läkarprogrammet HT Medicinsk statistik Varför behöver Ni kunskap i medicinsk statistik? Självständigt arbete Kunna tolka resultat.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? Tabeller - Sammanfatta material Diagram - Åskådliggöra material Lägesmått - ”Genomsnitt”
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Introduktion. 2 Vad är statistik? ”En massa siffror” Beskrivning av staten Metodlära.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.
Marknadsundersökning Kap 12
Förelasning 1 Kursintroduktion Statistiska undersökningar
Grundläggande begrepp
Presentationens avskrift:

Statistik Lars Valter Fil.lic. Statistik Centrum för hälso- och vårdutveckling Landstinget i Östergötland Linköping Academic Research Centre (LARC) Landstinget i Östergötland och Lnköpings Universitet

Statistik

Statistik

Statistik ” … vetenskapen om hur data med inslag av slumpvariation eller osäkerhet skall insamlas, utvärderas och presenteras.” (National Encyklopedin)

“Statistics, Statistik the most important science in the whole world: for upon it depends the applications of every other science and of every art: the one science essential for all political and social administration, all education, all organization based on experience for it only gives results of our experiences”

Statistik I dag Grund (skalor och variabler) Deskriptiv statistik Statistisk inferens (analys) Statistisk styrka (poweranalys) Sensitivitet och specificitet

Statistik Variabler och skalor Nominalskala Ordinalskala Intervallskala Kvotskala

Klassificerar objekt till en av flera kategorier Statistik Nominal skala Egenskaper: Klassificerar objekt till en av flera kategorier Exempel: Födelseland, Yrke, etc

Naturlig rangordning mellan kategorier Statistik Ordinal skala Egenskaper: Naturlig rangordning mellan kategorier Exempel: Sf36 fråga1

Statistik Ordinal skala

Statistik Nominal skala - alltid diskret (diskret = kategoridata, klassindelad) Ordinal skala – ofta diskret men inte alltid…

Statistik VAS, Visuell Analog Skala en kontinuerlig ordinal skala

Temperatur (grader Celsius) Statistik Intervallskala Egenskaper: Ekvidistans Exempel: Temperatur (grader Celsius)

Vikt, temperatur (kelvin) Statistik Kvotskala Egenskaper: Absolut nollpunkt Exempel: Vikt, temperatur (kelvin) 0 kelvin = -273,15 celsius

Alla fyra skalorna kan dikotomiseras Statistik Intervall- och kvotskalor kan vara antingen kontinuerliga eller diskreta Alla fyra skalorna kan dikotomiseras

Statistik Vilka variabler kan vi mäta på oss här inne? Vilka skalor mäts variablerna med?

Statistik Centralmått (lägesmått) Spridningsmått Skevhet (skewness) Toppighet (curtosis)

Statistik Centralmått Typvärde Median Medelvärde

Statistik Spridningsmått Kvartiler och kvartilavstånd Min, max och range (vidd) Standardavvikelse

Statistik Nominalskala:Typvärde Ordinal skala: Median, kvartiler, min och max, range och kvartilavstånd Intervall-/kvotskala: Medelvärde, standardavvikelse

Två formler 

En övning Beräkna: typvärde, median och medelvärde samt 1:a kvartilen och 3:e kvartilen

En övning

Beskriva med tabeller Korstabeller kan vara tvåvägsindelade eller trevägsindelade och innehålla absoluta frekvenser eller relativa frekvenser

Beskriva med tabeller Tvåvägstabell med absoluta och relativa frekvenser

Beskriva med tabeller Trevägstabell med relativa frekvenser

Beskriva med tabeller

Beskriva med tabeller Trevägsindelad kvottabell (4 variabler)

Statistikens bilder

Statistikens bilder

Statistikens bilder Dotplot

Statistikens bilder Histogram

Statistikens bilder Boxplot

Statistikens bilder

Statistikens bilder

Statistikens bilder Gör inte så här

Statistikens bilder

Statistikens bilder

Statistikens bilder

Statistikens bilder

Statistikens bilder

Statistikens bilder

Statistikens bilder

Statistikens bilder

Statistikens bilder

Förvilla inte !

Förvilla inte !

Förvilla inte !

Statistikens bilder Inte så bra exempel

Statistikens bilder

Statistisk inferens statistisk inferens, induktiv vetenskap där man drar slutsatser ur empiriska data under en osäkerhet orsakad av slumpmässighet i data. Systematisk och slumpmässig variation i data beskrivs i en statistisk modell (t.ex. en regressionsmodell) med en eller flera okända ... Nationalencyklopedin

Statistisk inferens Population Stickprov Medelvärde: μ _ Standardavvikelse: σ _ Medelvärde: x Standardavvikelse: s

Statistisk inferens Population Behandling A Population Behandling B Medelvärde: μA Standardavvikelse: σA Medelvärde: μB Standardavvikelse: σB Stickprov Stickprov _ _ xA sA xB sB

Ett centralt begrepp i statistisk inferens Samplingfördelning: Ett centralt begrepp i statistisk inferens

Samplingfördelning

Samplingfördelning

Samplingfördelning medelvärde=54.9

Samplingfördelning

Samplingfördelning medel 50, stdev 5 medelvärde=54.9

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Samplingfördelning

Centrala gränsvärdessatsen Ungefär så här: Om populationen är normalfördelad så blir samplingfördelningen för stickprovsmedelvärdet också normalfördelad Om populationen är symmetrisk så blir samplingfördelningen för stickprovsmedelvärdet nästan normalfördelad vid ganska liten stickprovsstorlek Om populationen inte är symmetrisk så blir samplingfördelningen för stickprovsmedelvärdet nästan normalfördelad vid ganska stor stickprovsstorlek

Samplingfördelning

Samplingfördelning

Samplingfördelning Temperatur i en population

Samplingfördelning

Standardavvikelse eller standard error eller både och?

Hypotesprövning

Typiskt statistisk frågeställning: Hypotesprövning Typiskt statistisk frågeställning: Är medelvärdet i den här populationen högre än 37 grader? Ställ upp statistiska hypoteser Ta ett stickprov Beräkna en testvariabel Räkna ut ett p-värde. Dra slutsats.

Hypotesprövning Statistiska hypoteser till grund för varje p-värde finns en statistisk hypotes Exempel eller

Hypotesprövning P-värde P-value sannolikheten att, om nollhypotesen är sann, observera något som avviker mer från nollhypotesen än den observation som vi har fått P-value Probability of obtaining a test statistic at least as extreme as the one that was actually observed, given that the null hypothesis is true

Hypotesprövning Nu vill vi undersöka om den genomsnittliga temperaturen i en population är högre än 37 grader. Ett stickprov ur populationen (n=16) resulterar i stickprovsmedelvärdet 37,3 och stickprovets standardavvikelse är 0,5 Statistiska hypoteser

Hypotesprövning Samplingfördelningen när nollhypotesen är sann

Hypotesprövning Är 37,3 tillräckligt stort för att förkasta nollhypotesen? Testvariabel: Är 2,4 tillräckligt stort för att förkasta nollhypotesen? Se på p-värdet: Är p-värdet tillräckligt litet för att förkasta nollhypotesen?

Hypotesprövning Hur litet ska p-värdet vara? < 0.20 < 0.10 < 0.05 eller < 0.01

Hypotesprövning Kan man dra fel slutsats? Javisst 

Hypotesprövning Rätt Rätt Typ I-fel (α) Typ II-fel (β) Nollhypotesen förkastas Nollhypotesen förkastas inte Nollhypotesen är sann Nollhypotesen inte är sann Typ I-fel (α) Rätt Typ II-fel (β) Rätt

Statistisk inferens Hypotesprövning: Konfidensintervall för µ (populationsmedelvärdet)

Konfidensintervall 37,03-37,57 Uppskatta populationens medelvärde med stickprovets medelvärde (37,3) eller bättre med ett (95%-igt) konfidensintervall 37,03-37,57

Konfidensintervallet tolkas: Med 95% säkerhet innefattar (täcker) intervallet den populationsparameter vi är intresserade av.

Power - Styrka Power-beräkningar är ett stöd inför planering och design av en studie En liten studie kan vara oetisk eller meningslös En stor studie kan vara oetisk eller onödigt stor En bra power-beräkning kräver en del antagande och därför kunskap om det som ska studeras Statistisk styrka: Sannolikheten att förkasta en felaktig noll-hypotes

Beräkna stickprovsstorlek Vilken är den minsta kliniskt relevanta effekten/skillnaden som vi vill upptäcka? Vilka är de statistiska hypoteserna? Vilken signifikansnivå ska användas? Vilken styrka vill vi ha? Hur stor är variationen (standardavvikelsen).

Beräkna stickprovsstorlek Vilka är de statistiska hypoteserna? Vilken signifikansnivå ska användas? Vilken styrka vill vi ha? Hur stor är variationen (standardavvikelsen)?

Beräkna stickprovsstorlek Power 0,90 0,80 6 1049,76 784,00 7 262,44 196,00 8 116,64 87,11 10 41,99 31,36 15 10,50 7,84

Beräkna stickprovsstorlek

Power-beräkningar kan vara lite besvärliga att göra för hand  Power - Styrka Power-beräkningar kan vara lite besvärliga att göra för hand 

Sensitivitet och specificitet Sannolikheten att klassificera en sjuk person som sjuk. Specificitet: Sannolikheten att klassificera en frisk person som frisk.

Sensitivitet och specificitet Ett exempel: Kroppstemperaturen i en frisk befolkning är i genomsnitt 37 grader med en standardavvikelse på 0,5 grader Specificitet

Sensitivitet och specificitet forts. exempel: Kroppstemperaturen i en sjuk befolkning är i genomsnitt 38,5 grader med en standardavvikelse på 2,5 grader Sensitivitet

Sensitivitet och specificitet

Sensitivitet och specificitet Temp. Sensitivitet Specificitet 38 0,69 0,98

Sensitivitet och specificitet

Sensitivitet och specificitet Temp. Sensitivitet Specificitet 37,5 0,84 38,0 0,69 0,98 38,5 0,50 1,00

Sensitivitet och specificitet Sensitivitet: Sannolikheten att klassificera en sjuk person som sjuk. Specificitet: Sannolikheten att klassificera en frisk person som frisk. Positivt test Negativt test Sjuka A B Friska C D

Sensitivitet och specificitet För en slumpmässigt vald person ur en population definieras: Sannolikheten att personen är sjuk (Prevalens) Sannolikheten för sjukdom efter positivt test (Positivt prediktivt värde) Sannolikheten för frisk efter negativt test (Negativt prediktivt värde)

Sensitivitet och specificitet Ett exempel: I en studie för att bestämma sensitivitet och specificitet för en ny diagnostisk metod ingår 100 personer med den aktuella sjukdomen och 100 friska personer. Positivt test Negativt test Totalt Sjuka 90 10 100 Friska 30 70 120 80 200 sensitivitet: 90 % specificitet: 70%

Sensitivitet och specificitet Screening av sjukdomsförekomst Vid screening kan man vara intresserad av att beräkna följande: Andel personer i befolkningen som kommer att behandlas= Positivt prediktivt värde= Negativt prediktivt värde= Andel personer i befolkningen som felaktigt behandlas (falska positiva)= Andel personer i befolkningen som felaktivt inte behandlas (falska negativa)=

Sensitivitet och specificitet Exempel I en liten befolkning (100 000 personer) är prevalensen för en viss sjukdom 5 %. Ett diagnostiskt instrument har sens.=90 % och spec.=70%. Positivt test Negativt test Totalt Sjuka 4500 500 5000 Friska 28500 66500 95000 33000 67000 100000 Beräkna: Andel personer i befolkningen som kommer att behandlas = 33000/100000 = 33% Positivt prediktivt värde = 4500/33000 = 13.6% Negativt prediktivt värde = 66500/67000 = 99.3% Andel personer i befolkningen som felaktigt behandlas = 28500/100000 = 28.5% Andel personer i befolkningen som felaktivt inte behandlas = 500/100000 = 0.5%

Simpsons paradox 20 16 24 Med kompl. Utan kompl. Det stora sjukhuset Det lilla sjukhuset 40 % kompl.

Simpsons paradox Ej akut Akut 2 8 9 21 18 12 7 3 Med kompl. Utan kompl. Ej akut Det stora sjukhuset 2 8 9 21 20 % kompl. Det lilla sjukhuset 30 % kompl. Akut Det stora sjukhuset 18 12 7 3 60 % kompl. Det lilla sjukhuset 70 % kompl.

Simpsons paradox Akut/ej akut Resultat Sjukhus