Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.

Slides:

Advertisements

Liknande presentationer

Punkt- och intervallskattning Felmarginal

Advertisements

Inferens om en population Sid

FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Samband mellan kvalitativa variabler Sid

FL3 732G81 Linköpings universitet.

Jämförelse av två populationer Sid

Workshop i statistik för medicinska bibliotekarier!

Vad ingår kursen? i korta drag

Tillämpad statistik Naprapathögskolan

Sammanfatta siffrorna…

Skattningens medelfel

Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

Förelasning 1 Kursintroduktion Statistiska undersökningar

Förelasning 6 Hypotesprövning

Centrala Gränsvärdessatsen:

Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.

FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Sannolikhet Stickprov Fördelningar

Normalfördelningen och centrala gränsvärdessatsen

Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9

Statistik Lars Valter Fil.lic. Statistik

Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)

732G22 Grunder i statistisk metodik

Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.

Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Föreläsning 1, Introduktion Varför statistik? Population – Urval - Mätnivå Deskription Cirkeldiagram, stapeldiagram, histogram, spridningsdiagram, boxplot…

1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.

Kvantitativ metod. 2 Vad är statistik? En massa siffror Beskrivning av staten Metodlära.

SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/

Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.

Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.

  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.

STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.

Introduktion. Exempel: Till ett försök med bantningsmedlet Bantomid anmälde sig 14 personer frivilligt, alla med övervikt. De delades slumpmässigt in.

Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.

Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)

Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning –Problemformulering (syfte.

Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.

UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.

Kvantitativ metod. 2 Vad är statistik? ”En massa siffror” Beskrivning av staten Metodlära.

1. Kontinuerliga variabler

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning Olika sätt att göra ett.

1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.

Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.

Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.

Samband & Inferens Konfidensintervall Statistisk hypotesprövning

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.

Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning –Olika sätt att göra.

1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.

INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? Tabeller - Sammanfatta material Diagram - Åskådliggöra material Lägesmått - ”Genomsnitt”

Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.

Statistisk metod (Intro) Vad är statistik (kvantitativ metod)? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning Definition.

Introduktion. 2 Vad är statistik? ”En massa siffror” Beskrivning av staten Metodlära.

Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.

Marknadsundersökning Kap 12

Förelasning 1 Kursintroduktion Statistiska undersökningar

Grundläggande begrepp

Y 5.4 Tabeller och diagram Frekvens och relativ frekvens

Presentationens avskrift:

Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest

1. VAD ÄR STATISTIK? ”Siffror, tabeller??” METODLÄRA ägnad åt insamling, bearbetning, beskrivning och analys av data. En vetenskap som har kunskapsbildning som mål. Den vetenskapliga diciplinen statistik anger metoder och tekniker för att skaffa sig kunskap. KUNSKAPSBILDNING PÅ EMPIRISK VÄG Att skaffa sig kunskap genom observationer.

Hypotetiskt deduktiv metod. HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)

Statistiska metoder används för att sammanfatta samlade erfarenheter göra förutsägelser dra slutsatser fatta beslut då informationen är osäker. Statistikerns roll är att INSAMLA, BEARBETA och TOLKA data.

Statistik består av Ett antal tekniker Regler för när, var och hur dessa tekniker skall användas (metodologi) Statistikämnets uppkomst och utveckling är nära förknippat med behov inom andra dicipliner.

Grundläggande begrepp Population: Grupp av individer vi vill undersöka. Totalundersökning: Alla enheter i populationen undersöks. Urvalsundersökning: En delmängd av populationen väljs ut och undersöks. Variabel: Egenskap hos enheterna i populationen.

Mätning De egenskaper (variabler) hos enheterna som vi är intresserade av skall tilldelas mätvärden (variabelvärden) med hjälp av något mätinstrument (t ex. enkät). Mätfel är skillnaden mellan erhållet värde och sant värde.

Mätnivåer Nominal- klassificering Ordinal- klassificering, rangordning Intervall- klassificering, rangordning, ekvidistans Kvot- klassificering, rangordning, ekvidistans, absolut nollpunkt

Mätnivån bestäms av vilken typ av information mätningen ger oss. Mätnivån har betydelse för vilken typ av beräkningar som är meningsfulla. T ex kan vi inte använda medelvärde vid nominaldata. Vad är medelfärg eller genomsnittskön?

3. DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? *Tabeller / Sammanfatta material *Diagram / Åskådliggöra material *Centralmått / ”Genomsnitt” av material *Spridningsmått ”Variation” i material

Frekvenstabell Absolut frekvens: Antal gånger varje variabelvärde förekommer Relativ frekvens: Hur stor andel absolut frekvens är av totalen. Kumulativ frekvens: Hur många personer som har ett visst högsta värde.

x = antal Mc-Donalds besök/månad xfrekvensrelativ frekvens kumulativ frekvens 111/20= /20=0.154 (1+3) 388/20=0.412(4+8) 466/20=0.318(12+6) 522/20=0.120(18+2) ∑=20∑=1

Klassindelning Vid stora material, stor spännvidd bland observationer och kontinuerliga variabler. Syfte och bearbetning styr antal klasser. Välj gärna samma klassbredd. Tillämpning av klassbredd och klassmitt utgår från den aktuella variabeln. Används till vissa diagram.

Diagram/Kvalitativa variabler Stapeldiagram Används ofta vid jämförelse av värden - Inom olika områden - Vid olika tidpunkter Cirkeldiagram Används ofta för att visa delarna av en summa.

Stapeldiagram

De flesta lever med sina biologiska föräldrar De flesta barn lever med bägge sina ursprungliga föräldrar. Men ju äldre barnen blir desto vanligare är det att de har varit med om en separation mellan föräldrarna. Bor med bägge eller en av föräldrarna Procent av samtliga barn 1-17 år, Cirkeldiagram

Diagram/Kvantitativa variabler Stolpdiagram Används för att visa frekvens vid diskret material och få variabelvärden. Histogram Används för att visa frekvens vid kontinuerligt och klassindelat material.

Stolpdiagram, fördelning för antalet barn/familj

Histogram. Nyfödda barns fördelning på variabeln längd

Histogram Visar fördelningen av en klassindelad variabel. Bredd på staplarna = klassbredd Ytan motsvarar frekvensen. Om samma klassbredd motsvarar höjden frekensen.

Tidserie

Beskrivande mått Om man vill beskriva en egenskaps fördelning kan man naturligtvis göra detta genom att räkna upp alla observationer. I en frekvenstabell sammanfattas en fördelning i ett fåtal värden – frekvenserna. Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal.

Centralmått Ett centralmått sammanfattar en fördelning i ett enda tal och ger information om var fördelningens centrum är beläget. Tre vanliga centralmått - Typvärdet: Det mest frekventa värdet. - Medianen: Delar materialet ”mitt itu”. - Medelvärdet: Materialets tyngdpunkt. Det vanligaste centralmåttet.

Vilket av dessa tre mått ska vi använda? Syfte, vad ska vi ha måttet till? Möjlighet att tolka resultatet. Medianen kräver minst ordinaldata (rangordning). Medelvärdet kräver intervall eller kvotdata Medelvärdet påverkas av sneda fördelningar och extrema observationer.

Spridningsmått Ett spridningsmått ger information om fördelningens spridning. Är materialet väl samlat eller är det stor variation? Till varje centralmått finns spridningsmått. Typvärde - Variationsvidd Median - Kvartilavstånd Medelvärde - Standardavvikelse

Spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet. Kvartilavståndet anger inom vilket avstånd de 50% mittersta observationerna ligger. Standardavvikelsen beskriver hur mycket mätvärdena avviker från medelvärdet. Det vanligaste spridningsmåttet.

nominalordinalintervallkvot typvärde median (vissa fall medelvärde) medelvärde variationsvidd kvartilavstånd standardavv.

Boxplot (variabel:stressnivå)

Mätningens kvalitet Reliabilitet: Grad av tillförlitlighet hos en mätning Validitet: Hög validitet betyder att den använda variabeln skall vara ett relevant mått på den undersökta egenskapen. Hög reliabilitet är nödvändigt för hög validitet.

Olika typer av statistiska undersökningar Totalundersökningar eller urvalsundersökningar. Deskriptiva undersökningar eller förklarande undersökningar. Experimentella undersökningar eller icke experimentella undersökningar (observationsstudier).

Experimentella studier Behandling. Försöksenheterna utsätts för vissa behandlingar i avsikt att studera effekten av dessa behandlingar Upprepbarhet. Experimentet kan upprepas ett önskat antal gånger Randomisering. Försöksenheterna fördelas slumpmässigt på olika behandlingar. Kontroll

URVAL Varför urvalsundersökning? Billigare, snabbare … Olika typer av vanliga urval: Lättåtkomliga personer ”på stan”. Ringa in till tv-program. Osv…. Hur blir resultatet av undersökningen?

Syftet med statistiska undersökningar är ofta att utifrån ett urval uttala sig om en hel population Om urvalen ej är sannolikhetsurval kan vi inte göra generaliseringar utanför den grupp av individer vi har undersökt.

Olika typer av sannolikhetsurval OSU Obundet slumpmässigt urval: Varje enhet i populationen har samma chans att ingå i urvalet. Systematiskt urval: Gör en lista över enheterna. Välj t ex var 10:e med slumpmässig start bland de 10 första.

Stratifierat urval: Dela in populationen i homogena delpopulationer (strata). Välj med OSU ett antal enheter i varje strata. Klusterurval: Dela in populationen i heterogena delpopulationer (kluster). Välj slumpmässigt ett antal kluster.

Normalfördelning Statistiska metoder används ofta för att generalisera. Många av dessa metoder förutsätter att den studerade variabeln kan antas följa normalfördelningen. Det räcker då att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en bild av vilka variabelvärden som kan betraktas som ”vanliga” och vilka som är ”ovanliga”

Ex: Längd hos 50 kvinnor år.

För en normalfördelning gäller följande: –Ungefär 68,3% av fördelningen ligger inom en standardavvikelse från medelvärdet. –Ungefär 95,4% av fördelningen ligger inom två standardavvikelser från medelvärdet. –Ungefär 99,7% av fördelningen ligger inom tre standardavvikelser från medelvärdet.

Exempel: –Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. –Då vet vi att ungefär 68,3% av populationen ligger mellan 85 och 115, ungefär 95,4 % av populationen mellan 70 och 130 och ungefär 99,7 % av populationen mellan 55 och 145

Normalgränser Inom sjukvården är många laboratorievärden normalfördelade. Normalgränser: De gränser inom vilka 95% av en frisk population befinner sig. De ”onormala” värdena är de 2,5%lägsta och 2,5% högsta. Intervallet μ±1,96σ innefattar exakt 95% av värdena.

4. STATISTISK INFERENS Vi vill uttala oss om populationen med hjälp av ett stickprov (urval) Består i huvudsak av tre delar: 1. Punktskattning 2. Intervallskattning (Konfidensintervall) 3. Hypotesprövning ☻

Punktskattning och Konfidensintervall Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag. Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna. Vi kan då skatta andelen i populationen med 1200/3000=0.4. Det är svårt att ”träffa mitt i prick” och därför används konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss sannolikhet (95%, 99%).

Konfidensintervall Ett intervall som täcker den sanna parametern i populationen med en viss sannolikhet (95%,99%). Exemplet: Det 95%-iga konfidensintervallet blir 0.40± Felmarginalen är då 1.8 procentenheter och beror på standardavvikelsen, stickprovsstorleken och konfidensgraden - Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

HYPOTESPRÖVNING HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)

LOGISKT GILTIGA SLUTSATSER Hypotes, Utsaga Inte utsaga Hypotesen falsk Giltig Observation: Slutsats: Hypotes, Utsaga Utsaga Hypotesen sann Inte Giltig Observation: Slutsats:

LOGISKT GILTIGA SLUTSATSER (EXEMPEL) Giltig Inte Giltig Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar en person som pga en olycka bara har 9 fingrar. Slutsats: Inte alla människor har 10 fingrar. Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar 240 personer som alla har 10 fingrar. Slutsats: Alla människor har 10 fingrar. Ej giltig slutsats. Trots att jag inte (hittills) har träffat någon med fler eller färre fingrar betyder inte det att sådana personer inte existerar.

MOTSÄGELSEBEVIS Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser (t ex en människa med 9 fingrar är en omöjlighet om alla människor har 10 fingrar) utan motsägelser i form av ”osannolika händelser”.

OSANNOLIK HÄNDELSE (EXEMPEL) Antag att vi misstänker att dietiststuderandes BMI skiljer sig från övriga studenters och att vi vill testa denna hypotes. Nollhypotes: Dietister och öviga studenter har i genomsnitt samma BMI. Utsaga: Om dietister och övriga studenter i genomsnitt har samma BMI, så finns ingen eller endast en liten skillnad i BMI mellan dietister och övriga studenter i en urvalsundersökning. Om hypotesen är sann så är det en osannolik händelse att i en urvalsundersökning att observera en stor skillnad i BMI.

Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om nollhypotesen är sann (men oftare om den är falsk). Ex: Om skillnaden i BMI mellan dietister och övriga studenter är noll så observerar vi en skillnad som är större eller lika med 0.85 i 5 fall av 100 om vi tar ett stickprov på 30 dietister respektive 30 övriga studenter (från en stor population). Observera att detta resultat bygger på ett antagande om att standardavvikelsen för BMI i populationen är 2 för både dietister och övriga studenter.

50 P-VÄRDET Ett p-värde är sannolikheten att, om nollhypotesen är sann, vid en upprepning av försöket, få ett minst lika ”extremt” resultat (ex. skillnad i BMI) som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är hypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, (Hur säkra vill vi vara?) Utför testet och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och α. - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

Begrepp Typ-1 fel: Förkasta nollhypotesen då nollhypotesen är sann. Typ-2 fel: Ej förkasta nollhypotesen då nollhypotesen är falsk. Signifikansnivå=Typ-1 fel. Styrka= Förkasta nollhypotesen då nollhypotesen är falsk.

Olika test / Kvantitativ variabel 1-sample test: Du har en grupp på 10 kvinnliga veganer och vill undersöka om deras BMI skiljer sig från kvinnor i allmänhet. Parat test: Du har en grupp på 10 kvinnor och vill jämföra deras BMI före och efter diet. 2-sample test: Du har 10 kvinnor och 10 män och vill jämföra deras BMI.

T-test (normalfördelning) 1-sample t-test (Variabeln ska vara normalfördelad.) Parat t-test (Differensen mellan grupperna på variabelvärdena ska vara normalfördelade.) 2-sample t-test (Variabelvärdena för båda grupperna tillsammans ska vara normalfördelade.)

Ickeparametriska test (ej normalfördelning) Parat test – Wilcoxon teckenrangtest: Bygger på ranger. 2-sample test – Mann-Whitney: Bygger på ranger.

Chitvå test / Kvalitativ variabel Nominal eller ordinal datanivå Två användningsområden - Test på oberoende: Finns samband mellan två variabler? - ”Goodness of fit”: Testa om en observerad fördelning avviker från en förväntad fördelning