Experimentdesign och statistik Håkan Rydin Evolutionsbiologiskt centrum växtekologi Medan ni väntar – fundera över: Varför använder biologer statistik?

Slides:



Advertisements
Liknande presentationer
Tillämpad statistik Naprapathögskolan
Advertisements

Hur bra är modellen som vi har anpassat?
Grundläggande statistik, ht 09, AN
Genomgång - biostatistik Fråga 1 I en liten undersökning efterfrågades uppgifter om ålder hos 20 personer med högt blodtryck se tabell a)Beräkna.
Föreläsning 8 732G81. Kapitel 8 Inferens om en ändlig population Sid
Regiongemensam elevenkät 2016 Skolrapport Fjordskolan ÅK2.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Deskription. Individer och variabler Individer, undersökningsobjekt – De vi undersöker. De vi gör mätningar på. Kan vara människor, men kan också vara.
Introduktion. Exempel: Till ett försök med bantningsmedlet Bantomid anmälde sig 14 personer frivilligt, alla med övervikt. De delades slumpmässigt in.
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
Föreläsning 5 (Kajsa Fröjd) Tidsserier Kap 13.1 Man har en kvantitativ responsvariabel som mäts vid olika tidpunkter. 1.
Så kan det låta! … Mätinstrumentets reliabilitet och validitet ökades avsevärt genom en pilotstudie och för att nå bästa generaliserbarhet valdes ett representativt.
Regiongemensam elevenkät 2016 Skolrapport Öjersjö Brunns skola ÅK5.
Cirkulation och fysisk aktivitet - Våra bästa vänner går hand i hand + = Sant.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
Bearbetning och presentation Repetition… Kodning av svaren Rapportskrivning Olika feltyper.
Repetition av Chi2-test Kap 6, Kodning av svaren Kap 10, Olika feltyper Kap 12, Rapportskrivning.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Regiongemensam enkät i förskola och familjedaghem 2016
Tal, mönster och räkning
Kan vi mäta effekter besökares konsumtion med hjälp av rAPS?
INFÖR NATIONELLA PROVET
Regiongemensam enkät i förskola och familjedaghem 2016
INFÖR NATIONELLA PROVET
Kap 4 - Statistik.
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Tyresö kommun Tyresö förskola - Föräldrar Förskola
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Tyresö kommun Förskolan Cassiopeja - Föräldrar Förskola
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Målbild och strategi för effektiv och nära vård år 2030
Regiongemensam elevenkät 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam elevenkät 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Tyresö kommun Rotvik - Föräldrar Förskola
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Hur mycket använder ungdomarna olika beroendeframkallande ämnen i Helsingborg, Skåne, Sverige & Europa? Arbetsmaterial med diskussionsfrågor i klassrummet,
Tillämpad ekonometri (5 sp)
Vad ingår kursen? i korta drag
Ung Cancer - Medlemsundersökning 2017, Närstående
Regiongemensam elevenkät 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam elevenkät 2018
Regiongemensam elevenkät 2016
Jenny Henriksson Hushållningssällskapet
Regiongemensam elevenkät 2016
Kent W. Nilsson Falun
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Psykologins forskingsmetoder
Presentationens avskrift:

Experimentdesign och statistik Håkan Rydin Evolutionsbiologiskt centrum växtekologi Medan ni väntar – fundera över: Varför använder biologer statistik? Varför behövs replikat?

Varför använder biologer statistik?

Experimentdesign Biologisk frågeställning Hypotes Design Genomförande Analys Tolkning

Olika slags studier Fältstudie Experiment i fält Experiment i labb Kontroll Mekanismer Relevans Realism

Population Sample (stickprov) – slumpurval, oberoende Experimentenhet Population och sample

Variabel – det man mäter Prediktor (oberoende variabel) Kontrollerad behandling i experiment: Kvävetillsats, medicindos Varierar i naturen: Salthalt, temperatur Respons (beroende variabel) Tillväxt, medicinska symptom, mortalitet

Parameter – beräknade statistiska värden Statistiska parametrar: medelvärde, varians, skattade koefficienter Vad är prediktor, respons och parameter i denna anpassade modell: vikt = 1, ,34  längd

Varför behövs replikat?

Hur många replikat? 1.Så många man hinner och har råd med 2.Tumregel n = 30 3.Avvägning mellan att ha många replikat och att göra nogranna mätningar

Vad är ett replikat? Utan kväve Med kväve N+ N- N+ N- Design 1: n = ? Design 2: n = ? Blir plantorna större med kvävegödsling? N- N+

Experimentdesign – ett dåligt exempel Frågeställning Undrar om män eller kvinnor är mest förtjusta i röda tröjor? Hypotes H 0 : Andelen som äger röd tröja är lika stor för män och för kvinnor H 1 : Andelen som äger röd tröja är olika för män och kvinnor Design En studentgrupp uppdelad på män och kvinnor väljs ut Undersök hur stor andel av män och kvinnor i gruppen som äger röd tröja Genomförande Räkna i kurssalen hur många män och kvinnor som äger röd tröja

Analys Har röd tröja Saknar röd tröja Kvinnor Män Analysera exemplet i R Tolkning? Vad är det för fel med denna design?

Experimentdesign – ett bättre exempel Frågeställning Undrar om män eller kvinnor är mest förtjusta i röda tröjor? Hypotes H 0 : Andelen som äger röd tröja är lika stor för män och för kvinnor H 1 : Andelen som äger röd tröja är olika för män och kvinnor Design Definiera populationen: alla studenter i Uppsala Undersök hur stor andel av män och kvinnor i gruppen som äger röd tröja Genomförande Fråga ett antal slumpmässigt valda uppsalastudenter (män och kvinnor) om de äger en röd tröja

Resultat Har röd tröja Saknar röd tröja Summa Kvinnor Män Summa För hela samplet: 70% har röd tröja, 30% saknar röd tröja. Om H 0 är sann ska dessa proportioner gälla både för män och kvinnor. Ett  2 -test används för att undersöka detta.

> d <- read.table(file.choose(), sep=(”;”), dec=(”,”), header=T) > d Har.röd Har.inte.röd > chisq.test(d, correct=F) Pearson's Chi-squared test data: d X-squared = , df = 1, p-value = ) Mata in data i Excel 2) Spara som ’csv’-fil Vad betyder det? 3) Analysera i R

> chisq.test(d)$expected Har.röd Har.inte.röd [1,] [2,] ) Jämför observerade och förväntade värden Har röd tröja Har inte röd tröja Kvinnor observerat förväntat o - f Män observerat förväntat o - f Slutsats?

1.Beräkna effekten av det du vill testa (tex medelvärden, korrelationskoefficienter och deras osäkerheter) 2.Formulera en nollhypotes (H 0 ) 3.Beräkna det statistiska testvärdet, tex t (t-test), F (ANOVA. 4.Beräkna sannolikheten (P) för att erhålla det beräknade testvärdet (eller högre) om H 0 är sann. Beror på antalet frihetsgrader (samplestorlek). 5.P-värdet avgör om man ska acceptera eller förkasta H 0 Vanlig konvention: P < 0,05H 0 förkastas, signifikant resultat P ≥ 0,05 H 0 accepteras, icke-signifikant resultat Hur funkar statistiska tester?

R 2 = 0,01 betyder att variation i x förklarar bara1% av variation i y. 99% av variationen beror på andra faktorer och slumpen! Starkt signifikant (P < 0,001), men vad betyder det biologiskt? Det finns inga regler om hur stort R 2 ska vara för att vara intressant! Stirra inte blint på P, titta också n och på hur stor effekten är! R 2 = 0,01 P < 0,001 n = 1200 Stark signifikans betyder inte alltid starkt samband

Korrelation bevisar inte orsakssamband! Antal präster Alkoholkonsumtion Antal präster Antal invånare Alkoholkonsumtion

Korrelation x och y mäts x och y samvarierar orsak-verkan ej klart Intelligens Kroppsvikt r = 0,87 Ålder Kroppsvikt Vikt = 15,3 + 0,43Ålder R 2 = 0,75 Regression x mäts eller manipuleras, y mäts funktionellt samband: x kan påverka y x är prediktor, y är respons

observerat värde residual predikterat värde Är förutsättningarna för vårt test uppfyllda? Residualanalys En statistisk modell ger ett predikterat värde för varje observation Residual = skillnad mellan uppmätt och predikterat värde Exempel med regression

Parametriska tester (t-test, Anova, regression) förutsätter respons måste vara på intervallskala (se nästa bild) residualernas varians ska vara lika stor vid olika behandlingar (varianshomogenitet = homoskedasticitet) residualerna ska vara normalfördelade Om data tillåter – använd parametriskt test! Om förutsättningarna inte är uppfyllda: 1) prova transformation (tex log) 2) välj icke-parametriskt test Residualanalys

Nominalskala – Kategorier (färg) Ordinalskala – Rangordning (liten, stor) Intervallskala – Kvantitativ skala Skillnader mellan värden kan beräknas, liksom medelvärden och standardavvikelse Mätskalor

Är data på intervallskala? Utför parametriskt test (anova, t-test, regression, korrelation). Är residualerna OK (normalfördelade, homogen varians)? Transformera responsvariabeln (tex log), eller välj en icke-linjär modell. Gör om testet Är residualerna OK (normalfördelade, homogen varians)? Analysen är OK Använd icke-parametriskt test ja nej ja nej ja nej Kan data omvandlas till intervallskala? nej ja Använd icke-parametriskt test

Residualanalys i regression och Anova # Läs in csv-fil och kolla > min.fil <- read.table(file.choose(), sep=";", header=T, dec=",") # Kör Anova > min.anova <- lm(min.fil$respons ~ min.fil$behandling) # residualanalys (skapa först utrymme för 2 x 2 plottar) > par(mfrow=c(2,2)) > plot(min.anova)

Varje residualpunkts avvikelse från normalkurvan. OK! Residualer ska ha samma variation för de olika behandlingarna (varianshomogenitet). OK! Residualer ska ha samma variation vid olika passade värden (varianshomogenitet). OK!

Linjär regression R 2 = 0,88, P < y = -22, x Vad är problemet? Hur skulle man se det i en residualplot? Kan vi lita på vår modell? Plotta och använd sunt förnuft: P-värde och R 2 säger inte allt! Kvadratisk regression R 2 = 0,92, P < y = 31,3 - 2,0x + 1,7x 2

R 2 = 0,77 Vad är problemet? Logaritmera y R 2 = 0,85 Bättre residualfördelning Kan vi lita på vår modell? Plotta och använd sunt förnuft: P-värde och R 2 säger inte allt!

Är data på intervallskala? Utför parametriskt test (anova, t-test, regression, korrelation). Är residualerna OK (normalfördelade, homogen varians)? Transformera responsvariabeln (tex log), eller välj en icke-linjär modell. Gör om testet Är residualerna OK (normalfördelade, homogen varians)? Analysen är OK Använd icke-parametriskt test janej ja nej ja nej Använd icke-parametriskt test Flödesschema för statistiska analyser

Parade Parat t-test Wilcoxon Fler än två grupper ANOVA Kruskal-Wallis Skillnad Två grupper eller fler? Frekvenser  2 -test Samband x och y samvarierar eller x påverkar y (prediktion)? Två grupper Parade eller oparade observationer? Oparade Oparat t-test Mann-Whitney Samvariation Korrelation Rangkorrelation Prediktion Regression Flödesschema för att välja test Mätvärden Skillnad mellan medelvärden eller samband mellan två variabler? Icke-parametriska tester är kursiverade Är responsen mätvärden (tex vikt, pH), eller frekvenser (antal observationer i olika kategorier; tex kön, art)?

Redovisa medelvärden, samplestorlek och spridningsmått! Grupper på x-axeln, stapeldiagram Kontinuerlig skala på x-axeln, linjediagram n = 9

Standardavvikelse (s, sd) Variationen bland experimentenheter i samplet Val av spridningsmått Standard error (medelfel, se, sem) Osäkerhet i skattning av medelvärdet Högre n ger säkrare skattning: se = s /  n Bra om man vill jämföra grupper med olika n 95-% konfidensintervall (CI) Om vi upprepar provtagningen så kommer medelvärdet att ligga inom detta intervall 95 gånger av 100 Om n > 30: Viktigast: Ange vilket spridningsmått du använt!

Inmatning av data i excel Varje rad = en observation Varje kolumn = en variabel (prediktor eller respons) Rad 1 = variabelnamn ”Spara som…” Filformat: CSV (kommaagränsad) (*.csv) Plotta data för att leta efter inmatningsfel! variabelvariabel observation

Seminariet i morgon gruppindelning på studentportalen i kväll! I ett naturreservat har man observerat ovanligt stora populationer av bladätande insekter. Har det lett till att större del av trädens blad har ätits upp än i andra reservat med mindre insektspopulationer? Gör en fältstudie. Har bete av hare och rådjur olika effekt på tillväxt hos unga träd? Gör ett fältexperiment. Är växter mer känsliga för herbivori om de samtidigt utsätts för torka? Gör ett växthusexperiment. Seminarieförberedelse Hur skulle du utforma dessa studier? Utforma nollhypotes! Vilka statistiska tester kommer du att använda?

Problemlösning med 12 exempel Jobba individuellt eller parvis igenom alla problemen. Beskriv resultaten tex i en graf eller tabell med effekter och spridningsmått. Rapporten ska inte upprepa rådata. Välj statistisk metod Formulera nollhypotes Genomför analysen. Har du valt rätt metod? Kolla plottar och residualanalys! På slutet får var och en i uppgift att redovisa skriftligt och muntligt (= examination, se betygskriterierna). Observera deadline för inlämning!