Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest
1. VAD ÄR STATISTIK? ”Siffror, tabeller??” METODLÄRA ägnad åt insamling, bearbetning, beskrivning och analys av data. En vetenskap som har kunskapsbildning som mål. Den vetenskapliga diciplinen statistik anger metoder och tekniker för att skaffa sig kunskap. KUNSKAPSBILDNING PÅ EMPIRISK VÄG Att skaffa sig kunskap genom observationer.
Hypotetiskt deduktiv metod. HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)
Statistiska metoder används för att sammanfatta samlade erfarenheter göra förutsägelser dra slutsatser fatta beslut då informationen är osäker. Statistikerns roll är att INSAMLA, BEARBETA och TOLKA data.
Statistik består av Ett antal tekniker Regler för när, var och hur dessa tekniker skall användas (metodologi) Statistikämnets uppkomst och utveckling är nära förknippat med behov inom andra dicipliner.
Grundläggande begrepp Population: Grupp av individer vi vill undersöka. Totalundersökning: Alla enheter i populationen undersöks. Urvalsundersökning: En delmängd av populationen väljs ut och undersöks. Variabel: Egenskap hos enheterna i populationen.
Statistisk inferens Syftet med statistisk inferens är att utifrån ett urval uttala sig om en population. Teorin för den statistiska inferensen bygger på att urvalen är sannolikhetsurval. Om urvalen ej är sannolikhetsurval kan vi inte göra generaliseringar utanför den grupp av individer vi har undersökt.
Sannolikhetsurval Hur ska vi göra vårt urval så vi kan generalisera till hela populationen? Urvalsenheterna väljs med hjälp av en slumpmekanism. För varje enhet är sannolikheten att inkluderas i urvalet känd. Enklaste fallet: obundet slumpmässigt urval (OSU).
Mätning De egenskaper (variabler) hos enheterna som vi är intresserade av skall tilldelas mätvärden (variabelvärden) med hjälp av något mätinstrument. Mätfel är skillnaden mellan erhållet värde och sant värde.
Mätning Reliabilitet: Grad av tillförlitlighet hos en mätning Validitet: Hög validitet betyder att den använda variabeln skall vara ett relevant mått på den undersökta egenskapen. Hög reliabilitet är nödvändigt för hög validitet.
Mätnivåer Nominal- klassificering Ordinal- klassificering, rangordning Intervall- klassificering, rangordning, ekvidistans Kvot- klassificering, rangordning, ekvidistans, absolut nollpunkt
Mätnivån bestäms av vilken typ av information mätningen ger oss. Mätnivån har betydelse för vilken typ av beräkningar som är meningsfulla. T ex kan vi inte använda medelvärde vid nominaldata. Vad är medelfärg eller genomsnittskön?
2. DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? *Tabeller / Sammanfatta material *Diagram / Åskådliggöra material *Centralmått / ”Genomsnitt” av material *Spridningsmått ”Variation” i material
Frekvenstabell Absolut frekvens: Antal gånger varje variabelvärde förekommer Relativ frekvens: Hur stor andel absolut frekvens är av totalen. Kumulativ frekvens: Hur många personer som har ett visst högsta värde. Kumulativ relativ frekvens: Hur stor andel kumulativ frekvens är av totalen.
x = antal Mc-Donalds besök/månad xfrekvensrelativ frekvens kumulativ frekvens kum. rel. frekvens 111/20= /20=0.154 (1+3)4/20= /20=0.412(4+8)12/20= /20=0.318(12+6)18/20= /20=0.120(18+2)20/20=1 ∑=20∑=1
Klassindelning Vid stora material, stor spännvidd bland observationer och kontinuerliga variabler. Syfte och bearbetning styr antal klasser. Välj gärna samma klassbredd. Tillämpning av klassbredd och klassmitt utgår från den aktuella variabeln. Används till vissa diagram.
Diagram/Kvalitativa variabler Stapeldiagram Används ofta vid jämförelse av värden - Inom olika områden - Vid olika tidpunkter Mångsidigt användbara Cirkeldiagram Används ofta för att visa delarna av en summa. Bör ej användas om - Skillnaden mellan komponenterna är små - Många komponenter
Stapeldiagram
De flesta lever med sina biologiska föräldrar De flesta barn lever med bägge sina ursprungliga föräldrar. Men ju äldre barnen blir desto vanligare är det att de har varit med om en separation mellan föräldrarna. Bor med bägge eller en av föräldrarna Procent av samtliga barn 1-17 år, Cirkeldiagram
Diagram/Kvantitativa variabler Grafisk framställning av Diskret material Få värden Kont. Material Klassindelning Absolut eller relativ frekvens StolpdiagramHistogram Kumulativ frekvens Trappstegs- kurva Summapolygon
Stolpdiagram, fördelning för antalet barn/familj
Histogram. Nyfödda barns fördelning på variabeln längd
Histogram Visar fördelningen av en klassindelad variabel. Bredd på staplarna = klassbredd Ytan motsvarar frekvensen. Om samma klassbredd motsvarar höjden frekensen.
Tidserie
Beskrivande mått Om man vill beskriva en egenskaps fördelning kan man naturligtvis göra detta genom att räkna upp alla observationer. I en frekvenstabell sammanfattas en fördelning i ett fåtal värden – frekvenserna. Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal.
Centralmått Ett centralmått sammanfattar en fördelning i ett enda tal och ger information om var fördelningens centrum är beläget. Tre vanliga centralmått - Typvärdet: Det mest frekventa värdet. - Medianen: Delar materialet ”mitt itu”. - Medelvärdet: Materialets tyngdpunkt. Det vanligaste centralmåttet.
Vilket av dessa tre mått ska vi använda? Syfte, vad ska vi ha måttet till? Möjlighet att tolka resultatet. Medianen kräver minst ordinaldata (rangordning). Medelvärdet kräver intervall eller kvotdata Medelvärdet påverkas av sneda fördelningar och extrema observationer.
Spridningsmått Ett spridningsmått ger information om fördelningens spridning. Är materialet väl samlat eller är det stor variation? Till varje centralmått finns spridningsmått. Typvärde - Variationsvidd Median - Kvartilavstånd / Kvartilavvikelse Medelvärde - Standardavvikelse
Spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet. Kvartilavståndet anger inom vilket avstånd de 50% mittersta observationerna ligger. Kvartilavvikelsen är kvartilavståndet delat med 2. Standardavvikelsen beskriver hur mycket mätvärdena avviker från medelvärdet. Det vanligaste spridningsmåttet.
nominalordinalintervallkvot typvärde median (vissa fall medelvärde) medelvärde variationsvidd kvartilavv. standardavv.
Boxplot (variabel:stressnivå)
Normalfördelning Statistiska metoder används ofta för att utifrån ett stickprov dra slutsatser om en hel population. Statistiska metoder används för att generalisera. Många av dessa metoder förutsätter att den studerade variabeln kan antas följa normalfördelningen.
Vet vi t.ex. att en variabels variation i en population på ett tillfredsställande sätt kan beskrivas av en normalfördelning, räcker det med att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en komplett bild av hur stor andel av populationen som finns inom vissa intervall.
Ex: Längd hos 50 kvinnor år.
För en normalfördelning gäller följande: –Ungefär 68,3% av fördelningen ligger inom en standardavvikelse från medelvärdet. –Ungefär 95,4% av fördelningen ligger inom två standardavvikelser från medelvärdet. –Ungefär 99,7% av fördelningen ligger inom tre standardavvikelser från medelvärdet.
Exempel: –Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. –Då vet vi att ungefär 68,3% av populationen ligger mellan 85 och 115, ungefär 95,4 % av populationen mellan 70 och 130 och ungefär 99,7 % av populationen mellan 55 och 145
Normalgränser Inom sjukvården är många laboratorievärden normalfördelade. Normalgränser: De gränser inom vilka 95% av en frisk population befinner sig. De ”onormala” värdena är de 2,5%lägsta och 2,5% högsta. Intervallet μ±1,96σ innefattar exakt 95% av värdena.
Statistisk inferens Vi vill uttala oss om populationen med hjälp av ett stickprov (urval) Består i huvudsak av tre delar: 1. Punktskattning 2. Intervallskattning (Konfidensintervall) 3. Hypotesprövning
Punktskattning Exempel: Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag. Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna om det vore val idag. Vi kan då skatta andelen i populationen med 1200/3000=0.4. Det är svårt att ”träffa mitt i prick” ……
Konfidensintervall Ett intervall som täcker den sanna parametern i populationen med en viss sannolikhet (95%,99%). Exemplet: Det 95%-iga konfidensintervallet blir 0.40± Felmarginalen är då 1.8 procentenheter och beror på standardavvikelsen, stickprovsstorleken och konfidensgraden - Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.
Exempel på hypotesprövning: Kost och fotboll (Balsom et al.1997) Sex manliga fotbollsspelare. Medelålder 24 år. I varje match två testpersoner, en från varje lag. (Totalt sex matcher). Varje match filmades och analyserades av tränad observatör. Observatören kände inte till förutsättningarna inför varje match.
48 timmar före match genomförde testpersonerna en löpning för att reducera glykogendepåerna. Under följande 48 timmar tilldelades varje tesperson ett kostprogram som vid ena tillfället var kolhydratrikt och vid det andra tillfället kolhydratfattigt. Inför varje match togs en muskelbiopsi från yttre breda lårmuskeln.
Glykogenkoncentrationen var signifikant högre då spelarna ätit den kolhydratrika kosten. Resultaten från rörelseanalysen visade att tiden för högintensivt arbete och press var signifikant lägre under matchen som förbereddes med kolhydratfattig kost.
HYPOTES-DEDUKTIVA METODEN HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)
LOGISKT GILTIGA SLUTSATSER Hypotes, Utsaga Inte utsaga Hypotesen falsk Giltig Observation: Slutsats: Hypotes, Utsaga Utsaga Hypotesen sann Inte Giltig Observation: Slutsats:
LOGISKT GILTIGA SLUTSATSER (EXEMPEL) Giltig Inte Giltig Hypotes: Det regnar. Utsaga: Om det regnar blir det blött på marken. Observation: Det är inte blött på marken. Slutsats: Det regnar inte. Hypotes: Det regnar. Utsaga: Om det regnar blir det blött på marken. Observation: Det är blött på marken. Slutsats: Det regnar. Ej giltig slutsats. Det kan vara blött på marken p g a andra orsaker.
LOGISKT GILTIGA SLUTSATSER (EXEMPEL) Giltig Inte Giltig Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar en person som pga en olycka bara har 9 fingrar. Slutsats: Inte alla människor har 10 fingrar. Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar 240 personer som alla har 10 fingrar. Slutsats: Alla människor har 10 fingrar. Ej giltig slutsats. Trots att jag inte (hittills) har träffat någon med fler eller färre fingrar betyder inte det att sådana personer inte existerar.
MOTSÄGELSEBEVIS Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser (t ex en torr mark är en omöjlig händelse vid regn, d v s om marken är torr förkastas hypotesen ”Det regnar.”) utan motsägelser i form av ”osannolika händelser”.
OSANNOLIK HÄNDELSE (EXEMPEL) Antag att vi misstänker att dietiststuderandes BMI skiljer sig från övriga studenters och att vi vill testa denna hypotes. Nollhypotes: Dietister och öviga studenter har i genomsnitt samma BMI. Utsaga: Om dietister och övriga studenter i genomsnitt har samma BMI, så finns ingen eller endast en liten skillnad i BMI mellan dietister och övriga studenter i en urvalsundersökning. Om hypotesen är sann så är det en osannolik händelse att i en urvals- undersökning att observera en stor skillnad i BMI.
Vad är en stor skillnad ??? För att avgöra vad en stor skillnad är använder vi oss av sannolikhetsteori. Sannolikhetsteorin talar bl a om hur ett slumpmässigt stick- prov ”beter sig” i förhållande till populationen. Den talar bl a om att t ex stickprovsmedelvärdet varierar från stickprov till stickprov, men att det i genomsnitt är det samma som populationsmedelvärdet (om stickprovet är slumpmässigt). Den talar också om (under vissa antaganden) hur mycket stick- provsmedelvärdet varierar från stickprov till stickprov.
Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om noll- hypotesen är sann (men oftare om den är falsk). Ex: Om skillnaden i BMI mellan dietister och övriga studenter är noll så observerar vi en skillnad som är större eller lika med 0.85 i 5 fall av 100 om vi tar ett stickprov på 30 dietister respektive 30 övriga studenter (från en stor population). Observera att detta resultat bygger på ett antagande om att standardavvikelsen för BMI i populationen är 2 för både dietister och övriga studenter.
TESTSTATISTIKA Inom statistisk hypotesprövning uttrycker vi utsagorna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan drar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen. I exemplet ovan var skillnaden mellan stickprovsmedelvärdet för dietister och övriga studenter teststatistika.
53 P-VÄRDET Ett p-värde är sannolikheten att, om nollhypotesen är sann, vid en upprepning av försöket, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är hypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.
Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, (Hur säkra vill vi vara?) Utför testet och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och α. - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )
Begrepp Typ-1 fel: Förkasta nollhypotesen då nollhypotesen är sann. Typ-2 fel: Ej förkasta nollhypotesen då nollhypotesen är falsk. Signifikansnivå=Typ-1 fel. Styrka= Förkasta nollhypotesen då nollhypotesen är falsk.
T-test 1-sample t-test: Jämför ett stickprov med en bakomliggande population. Parat t-test: Du har en grupp på 10 kvinnor och vill jämföra deras BMI före och efter diet. (Beroende stickprov) 2-sample t-test: Du har 10 kvinnor och 10 män och vill jämföra deras BMI. (Oberoende stickprov )
Ickeparametriska test Test av normalfördelning: - Histogram med normalkurva - Q-Q-plot Parat test – Wilcoxon teckenrangtest: Bygger på ranger (Beroende stickprov) 2-sample test – Mann-Whitney: Bygger på ranger (Oberoende stickprov)
Chitvå test Kvalitativ variabel Nominal eller ordinal datanivå Två användningsområden - Test på oberoende: Finns samband mellan två variabler? - ”Goodness of fit”: Testa om en observerad fördelning avviker från en förväntad fördelning