Experimentdesign och statistik Håkan Rydin Evolutionsbiologiskt centrum växtekologi Medan ni väntar – fundera över: Varför använder biologer statistik? Varför behövs replikat?
Varför använder biologer statistik?
Experimentdesign Biologisk frågeställning Hypotes Design Genomförande Analys Tolkning
Olika slags studier Fältstudie Experiment i fält Experiment i labb Kontroll Mekanismer Relevans Realism
Population Sample (stickprov) – slumpurval, oberoende Experimentenhet Population och sample
Variabel – det man mäter Prediktor (oberoende variabel) Kontrollerad behandling i experiment: Kvävetillsats, medicindos Varierar i naturen: Salthalt, temperatur Respons (beroende variabel) Tillväxt, medicinska symptom, mortalitet
Parameter – beräknade statistiska värden Statistiska parametrar: medelvärde, varians, skattade koefficienter Vad är prediktor, respons och parameter i denna anpassade modell: vikt = 1, ,34 längd
Varför behövs replikat?
Hur många replikat? 1.Så många man hinner och har råd med 2.Tumregel n = 30 3.Avvägning mellan att ha många replikat och att göra nogranna mätningar
Vad är ett replikat? Utan kväve Med kväve N+ N- N+ N- Design 1: n = ? Design 2: n = ? Blir plantorna större med kvävegödsling? N- N+
Experimentdesign – ett dåligt exempel Frågeställning Undrar om män eller kvinnor är mest förtjusta i röda tröjor? Hypotes H 0 : Andelen som äger röd tröja är lika stor för män och för kvinnor H 1 : Andelen som äger röd tröja är olika för män och kvinnor Design En studentgrupp uppdelad på män och kvinnor väljs ut Undersök hur stor andel av män och kvinnor i gruppen som äger röd tröja Genomförande Räkna i kurssalen hur många män och kvinnor som äger röd tröja
Analys Har röd tröja Saknar röd tröja Kvinnor Män Analysera exemplet i R Tolkning? Vad är det för fel med denna design?
Experimentdesign – ett bättre exempel Frågeställning Undrar om män eller kvinnor är mest förtjusta i röda tröjor? Hypotes H 0 : Andelen som äger röd tröja är lika stor för män och för kvinnor H 1 : Andelen som äger röd tröja är olika för män och kvinnor Design Definiera populationen: alla studenter i Uppsala Undersök hur stor andel av män och kvinnor i gruppen som äger röd tröja Genomförande Fråga ett antal slumpmässigt valda uppsalastudenter (män och kvinnor) om de äger en röd tröja
Resultat Har röd tröja Saknar röd tröja Summa Kvinnor Män Summa För hela samplet: 70% har röd tröja, 30% saknar röd tröja. Om H 0 är sann ska dessa proportioner gälla både för män och kvinnor. Ett 2 -test används för att undersöka detta.
> d <- read.table(file.choose(), sep=(”;”), dec=(”,”), header=T) > d Har.röd Har.inte.röd > chisq.test(d, correct=F) Pearson's Chi-squared test data: d X-squared = , df = 1, p-value = ) Mata in data i Excel 2) Spara som ’csv’-fil Vad betyder det? 3) Analysera i R
> chisq.test(d)$expected Har.röd Har.inte.röd [1,] [2,] ) Jämför observerade och förväntade värden Har röd tröja Har inte röd tröja Kvinnor observerat förväntat o - f Män observerat förväntat o - f Slutsats?
1.Beräkna effekten av det du vill testa (tex medelvärden, korrelationskoefficienter och deras osäkerheter) 2.Formulera en nollhypotes (H 0 ) 3.Beräkna det statistiska testvärdet, tex t (t-test), F (ANOVA. 4.Beräkna sannolikheten (P) för att erhålla det beräknade testvärdet (eller högre) om H 0 är sann. Beror på antalet frihetsgrader (samplestorlek). 5.P-värdet avgör om man ska acceptera eller förkasta H 0 Vanlig konvention: P < 0,05H 0 förkastas, signifikant resultat P ≥ 0,05 H 0 accepteras, icke-signifikant resultat Hur funkar statistiska tester?
R 2 = 0,01 betyder att variation i x förklarar bara1% av variation i y. 99% av variationen beror på andra faktorer och slumpen! Starkt signifikant (P < 0,001), men vad betyder det biologiskt? Det finns inga regler om hur stort R 2 ska vara för att vara intressant! Stirra inte blint på P, titta också n och på hur stor effekten är! R 2 = 0,01 P < 0,001 n = 1200 Stark signifikans betyder inte alltid starkt samband
Korrelation bevisar inte orsakssamband! Antal präster Alkoholkonsumtion Antal präster Antal invånare Alkoholkonsumtion
Korrelation x och y mäts x och y samvarierar orsak-verkan ej klart Intelligens Kroppsvikt r = 0,87 Ålder Kroppsvikt Vikt = 15,3 + 0,43Ålder R 2 = 0,75 Regression x mäts eller manipuleras, y mäts funktionellt samband: x kan påverka y x är prediktor, y är respons
observerat värde residual predikterat värde Är förutsättningarna för vårt test uppfyllda? Residualanalys En statistisk modell ger ett predikterat värde för varje observation Residual = skillnad mellan uppmätt och predikterat värde Exempel med regression
Parametriska tester (t-test, Anova, regression) förutsätter respons måste vara på intervallskala (se nästa bild) residualernas varians ska vara lika stor vid olika behandlingar (varianshomogenitet = homoskedasticitet) residualerna ska vara normalfördelade Om data tillåter – använd parametriskt test! Om förutsättningarna inte är uppfyllda: 1) prova transformation (tex log) 2) välj icke-parametriskt test Residualanalys
Nominalskala – Kategorier (färg) Ordinalskala – Rangordning (liten, stor) Intervallskala – Kvantitativ skala Skillnader mellan värden kan beräknas, liksom medelvärden och standardavvikelse Mätskalor
Är data på intervallskala? Utför parametriskt test (anova, t-test, regression, korrelation). Är residualerna OK (normalfördelade, homogen varians)? Transformera responsvariabeln (tex log), eller välj en icke-linjär modell. Gör om testet Är residualerna OK (normalfördelade, homogen varians)? Analysen är OK Använd icke-parametriskt test ja nej ja nej ja nej Kan data omvandlas till intervallskala? nej ja Använd icke-parametriskt test
Residualanalys i regression och Anova # Läs in csv-fil och kolla > min.fil <- read.table(file.choose(), sep=";", header=T, dec=",") # Kör Anova > min.anova <- lm(min.fil$respons ~ min.fil$behandling) # residualanalys (skapa först utrymme för 2 x 2 plottar) > par(mfrow=c(2,2)) > plot(min.anova)
Varje residualpunkts avvikelse från normalkurvan. OK! Residualer ska ha samma variation för de olika behandlingarna (varianshomogenitet). OK! Residualer ska ha samma variation vid olika passade värden (varianshomogenitet). OK!
Linjär regression R 2 = 0,88, P < y = -22, x Vad är problemet? Hur skulle man se det i en residualplot? Kan vi lita på vår modell? Plotta och använd sunt förnuft: P-värde och R 2 säger inte allt! Kvadratisk regression R 2 = 0,92, P < y = 31,3 - 2,0x + 1,7x 2
R 2 = 0,77 Vad är problemet? Logaritmera y R 2 = 0,85 Bättre residualfördelning Kan vi lita på vår modell? Plotta och använd sunt förnuft: P-värde och R 2 säger inte allt!
Är data på intervallskala? Utför parametriskt test (anova, t-test, regression, korrelation). Är residualerna OK (normalfördelade, homogen varians)? Transformera responsvariabeln (tex log), eller välj en icke-linjär modell. Gör om testet Är residualerna OK (normalfördelade, homogen varians)? Analysen är OK Använd icke-parametriskt test janej ja nej ja nej Använd icke-parametriskt test Flödesschema för statistiska analyser
Parade Parat t-test Wilcoxon Fler än två grupper ANOVA Kruskal-Wallis Skillnad Två grupper eller fler? Frekvenser 2 -test Samband x och y samvarierar eller x påverkar y (prediktion)? Två grupper Parade eller oparade observationer? Oparade Oparat t-test Mann-Whitney Samvariation Korrelation Rangkorrelation Prediktion Regression Flödesschema för att välja test Mätvärden Skillnad mellan medelvärden eller samband mellan två variabler? Icke-parametriska tester är kursiverade Är responsen mätvärden (tex vikt, pH), eller frekvenser (antal observationer i olika kategorier; tex kön, art)?
Redovisa medelvärden, samplestorlek och spridningsmått! Grupper på x-axeln, stapeldiagram Kontinuerlig skala på x-axeln, linjediagram n = 9
Standardavvikelse (s, sd) Variationen bland experimentenheter i samplet Val av spridningsmått Standard error (medelfel, se, sem) Osäkerhet i skattning av medelvärdet Högre n ger säkrare skattning: se = s / n Bra om man vill jämföra grupper med olika n 95-% konfidensintervall (CI) Om vi upprepar provtagningen så kommer medelvärdet att ligga inom detta intervall 95 gånger av 100 Om n > 30: Viktigast: Ange vilket spridningsmått du använt!
Inmatning av data i excel Varje rad = en observation Varje kolumn = en variabel (prediktor eller respons) Rad 1 = variabelnamn ”Spara som…” Filformat: CSV (kommaagränsad) (*.csv) Plotta data för att leta efter inmatningsfel! variabelvariabel observation
Seminariet i morgon gruppindelning på studentportalen i kväll! I ett naturreservat har man observerat ovanligt stora populationer av bladätande insekter. Har det lett till att större del av trädens blad har ätits upp än i andra reservat med mindre insektspopulationer? Gör en fältstudie. Har bete av hare och rådjur olika effekt på tillväxt hos unga träd? Gör ett fältexperiment. Är växter mer känsliga för herbivori om de samtidigt utsätts för torka? Gör ett växthusexperiment. Seminarieförberedelse Hur skulle du utforma dessa studier? Utforma nollhypotes! Vilka statistiska tester kommer du att använda?
Problemlösning med 12 exempel Jobba individuellt eller parvis igenom alla problemen. Beskriv resultaten tex i en graf eller tabell med effekter och spridningsmått. Rapporten ska inte upprepa rådata. Välj statistisk metod Formulera nollhypotes Genomför analysen. Har du valt rätt metod? Kolla plottar och residualanalys! På slutet får var och en i uppgift att redovisa skriftligt och muntligt (= examination, se betygskriterierna). Observera deadline för inlämning!