Dette har skjett i tidigere episode: Regression Anova Hypotestestning Statistica, Excel
Dagens Brunch: Alla test hänger ihop Vilket test ska man välja? Tolka grafer! Flera förklaringsvariabler på en gång Bygga statistiska modeller Jämföra statistiska modeller (= testa) R och R commander
Repetition av variabler Respons (y) vs. Förklaring (x) Kontinuerliga variabler Kategoriska variabler Jämföra statistiska modeller (= testa)
- Kategorisk Responsvariabel Kontinuerlig Kontinuerlig Kategorisk Myrstorlek 4.5 5.5 6.5 7.5 Knippfryle Vårfryle 0.0 0.2 0.4 0.6 0.8 1.0 Sannolikhet att välja vårfryle Kategorisk Responsvariabel Pissmyror Svartmyror 6 8 10 12 14 16 - Fröstorlek Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
även: barplot, plot of means, boxplots Logistisk stripchart Barplot (Stapeldiagram) Kategorisk Responsvariabel Scatterplot (Punktdiagram) Stripchart även: barplot, plot of means, boxplots Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
Fisher’s exakta (Chi-2) Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kategorisk Responsvariabel Regression även: korrelation Anova även: t-test Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
Fisher’s exakta (Chi-2) Vanliga test Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kontinuerlig Regression, Korrelation ANOVA, (t-test) Respons Förklaring
En kontinuerlig responsvariabel & en eller flera förklaringsvariabler Generell linjär modell Regression, Korrelation ANOVA, (t-test) Respons Förklaring Kategorisk +
Fisher’s exakta (Chi-2) En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +
Generella linjära modeller med: Flera kontinuerliga förklaringar brukar kallas multipel regression Flera kategoriska förklaringar brukar kallas flervägs-ANOVA En kontinuerlig förklaring och en (eller ibland flera) kategoriska förklaringar brukar kallas ANCOVA.
Jämföra modeller: Ett enkelt exempel Lavdiameter i cm Trädomkrets i dm
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Lavdiameter i cm Trädomkrets i dm
plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) n <- 6 medel.x <- 3 sd.x <- 1 medel.y <- 3 sd.y <- 1 R2 <- 0 # OBS! NOLL! library(MASS) kovarians<- matrix(c(sd.y^2,rep(sqrt(R2)*sd.x*sd.y,2),sd.x^2),2,2) y.och.x <- mvrnorm(n=n,mu=c(medel.y,medel.x),Sigma=kovarians) y <- y.och.x[,1] x <- y.och.x[,2] plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) abline(lm(y~x), lwd=5, col="red")
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Lavdiameter i cm Trädomkrets i dm
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Lavdiameter i cm Svar: p = 0,028 Trädomkrets i dm
Vad säger p-värdet? Hur stor är risken att få detta (eller ännu osannolikare) resultat av en slump. (Fast det egentligen inte finns någon skillnad.) Om p-värdet är < 0,05 Det är sjukt osannolikt att resultatet bara beror på slump. Om p-värdet är > 0,05 Det kan inte uteslutas att resultatet bara beror på slumpen. MEN!! Vi vet inte att det bara beror på slumpen. Det kan finnas en riktig skillnad. Även om vi inte kunde ”bevisa” det.
Är den röda linjen signifikant bättre än den blå (bara medel)? Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Alltså: Är den röda linjen signifikant bättre än den blå (bara medel)? Lavdiameter i cm mx <- y ~ x vs m0 <- y ~ 1 Trädomkrets i dm
Alltså: Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Är den röda linjen signifikant bättre än den blå? Det vill säga: Passar den röda linjen siginifikant bättre? Minskar bruset signifikant mycket? Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Lavdiameter i cm Trädomkrets i dm
Residualerna… …är det brus som inte förklaras av förklaringsvariabeln Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln) högre p-värde
mx <- y ~ x m0 <- y ~ 1 Förra sidan igen: Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Lavdiameter i cm Trädomkrets i dm
mx <- y ~ x m0 <- y ~ 1 Svar: p = 0,028 Förra sidan igen: Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Svar: p = 0,028
Artantal på 10 lokaler av olika storlek, 5 i Halland och 5 i Uppland. Lokal nr Artantal Area Landskap 1 30 2 Uppland 7 3 12 4 41 15 5 47 22 6 34 Halland 38 8 44 9 39 10 55 16
5 tänkbara förklaringsmodeller Artantalet beror bara på medelvärdet. Artantalet beror på vilket landskap lokalen ligger i. Artantalet beror på hur stor area lokalen har. Artantalet beror både på i vilket landskap lokalen ligger OCH hur stor lokalen är. Artantalet beror på lokalens storlek, men förhållandet mellan storlek och artantal är olika i de olika landskapen.
m0 lm(artantal ~ 1)
m1 lm(artantal ~ landskap)
m2 lm(artantal ~ area)
m3 lm(artantal ~ landskap + area)
m.int lm(artantal ~ landskap * area)
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ landskap m0 <- artantal ~ 1 # förklaras bara av totalmedlet
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area p = 0,65
m.int lm(artantal ~ landskap * area)
m3 lm(artantal ~ landskap + area)
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area p = 0,65
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074
m1 lm(artantal ~ landskap)
m3 lm(artantal ~ landskap + area)
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067
m2 lm(artantal ~ area)
m3 lm(artantal ~ landskap + area)
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017
m2 lm(artantal ~ area)
m0 lm(artantal ~ 1)
mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017
Rast? Eller?
Husmossans skottlängd Respons: Skottlängd Exempel på förklaringsvariabler: Jorddjup Barrskog /Blandskog
Bygga modeller!
Hussmossans skottlängd m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup
Alla mossmodeller 2006
Hussmossans skottlängd m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.
Behövs interaktionen?
Minskar bruset signifikant?
Minskar bruset signifikant? Jämför: mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup m3 <- skottlängd ~ skogstyp + jorddjup anova(mint,m3,test=”F”) p = 0,60 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 60%. Interaktionen är inte signifikant. Stryk den ur modellen!
Tillför skogstyp något givet jorddjup?
Minskar bruset signifikant?
Minskar bruset signifikant? Jämför: m3 <- skottlängd ~ jorddjup + skogstyp m2 <- skottlängd ~ jorddjup anova(m2,m3,test=”F”) p = 0,049 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 4,9%. Skogstyp påverkar skottlängden signifikant. Skogstyp behåller vi i modellen!
Tillför jorddjup något givet skogstyp?
Minskar bruset signifikant?
Minskar bruset signifikant? Jämför: m3 <- skottlängd ~ skogstyp + jorddjup m1 <- skottlängd ~ skogstyp anova(m1,m3,test=”F”) p = 0,71 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 71%. Jorddjup är inte signifikant. Stryk den ur modellen!
Om vi skiter i jorddjup (som ju var crap!), hur bra förklaring är skogstyp?
Minskar bruset signifikant?
Minskar bruset signifikant? Jämför: m1 <- skottlängd ~ skogstyp m0 <- skottlängd ~ 1 anova(m1,m0,test=”F”) p = 0,026 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 2,6%. Skogstyp ÄR signifikant. Den bästa modellen är: Klart!
Alla mossmodeller 2005
artantal ~ östorlek + avstånd. till artantal ~ östorlek + avstånd.till.fastlandet fruktsättning ~ pollinatörsbesök * kväve.i.jorden andel.giftiga.klöverblad ~ i.eller.utanför.hage * djurslag * betesmarkens.ålder spindelnäts-storlek ~ spindelstorlek * kön + biotop spridningsavstånd ~ hårpensellängd + frövikt bytesstorlek ~ predatorart
Rast? Eller?
Krav för att få göra test med kontinuerlig förklaringsvariabel Ungefär samma variation i alla grupper eller längs en kontinuerlig variabel Hyfsat normalfördelat brus (=residualer) Linjära modeller är oftast robusta, dvs oftast stämmer testet bra även om kraven inte uppfylls perfekt. Men vi kollar för säkerhets skull att det inte är helt åt tjottahejti.
Ungefär samma variation? Fröstorlek i mm 10
Hyfsat normalfördelat brus (=residualer) Histogram av responsvariabeln fröstorlek Histogram av residualerna 14 20 Äng 12 10 15 Skog Antal arter Antal arter 8 10 6 4 5 2 1 2 3 -1 -0,5 +0,5 Fröstorlek i mm Avstånd i mm från respektive gruppmedel
Hyfsat normalfördelade residualer Blomantal ~ Bladlängd Histogram över residualer 35 12 30 10 8 25 Blomantal Antal datapunkter 6 20 4 15 2 10 6 8 10 12 14 16 -15 -10 -5 5 10 Bladlängd i cm Avstånd från regressionslinjen
Residualerna… …är det brus som inte förklaras av förklaringsvariabeln Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln) högre p-värde
Anova-style
Anova-style
Regression-style
Regression-style
Linjär modell-stil (moss -05)
Linjär model-style (moss -05)
Ögontröst-style
Ögontröst-style
Log-transformering
Plus-effekt eller procent-effekt 200 500 500 400 Plus-effekt Från 0-5: 100 + 100 = 200 Från 5-10: 200 + 100 = 300 300 Antal bladlöss 300 y 200 100 100 Procent-effekt Från 0-5: 80 2,5 = 200 Från 5-10: 200 2,5 = 500 80 1 2 3 4 5 6 7 8 9 10 Veckor x
Antal bladlöss Antal bladlöss Veckor Veckor
Ögontröst-style
Logtransformerad ögontröst
Ögontröst-style
Plus-effekt eller procent per procent 1 2 3 4 5 6 7 8 9 10 100 200 300 400 500 400 Plus-effekt Från 0-5: 100 + 100 = 200 Från 5-10: 200 + 100 = 300 Frövikt i μg 300 y 100 100 Procent per procent Från 2,5 till 5 = 200%: 100 200% = 200 Från 5 till 10 = 200%: 200 200% = 400 Bladlängd i cm x
Frövikt i μg Frövikt i μg Bladlängd i cm Bladlängd i cm
Anolis Grod- & Kräldjur
Rast? eller eller
Samband mellan förklaringsvariablerna: Ett extremfall! namn längd högerfot vänsterfot Didrik 190 28 27.5 Pelle 180 26 Martin 170 23.8 23.3 Niklas 24.4 24.9 Henrik 23.6 23.4 Åsa 25.5 25.7 Anja 175 22.5 23 Johanna 157.5 21.5 21.8 Sofia 160.5 22.7 Petra Alex 185 25.6
Är längden kopplat till fotstorlek? m0 <- längd ~ 1 m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.
Samband mellan förklaringsvariablerna: Ett extremfall!
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91
Öh? m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91 Öh?
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057
m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057
Fethårt korrelerade förklaringsvariabler!!
A B E D F a s t l a n d G C F Flest: Färst:
Korrelerade förklaringsvariabler Plotta förklaringsvariablerna mot varandra! Ta bort vänsterfötter.
Fisher’s exakta (Chi-2) En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +
Braxengräs
mint <- braxengräs ~ log(area) + konn + log(area):konn m3 <- braxengräs ~ log(area) + konn m2 <- braxengräs ~ konn m1 <- braxengräs ~ log(area) m0 <- braxengräs ~ 1
När ni gör er undersökning Rita förväntade grafer (och grtafer för om förväntingarna inte stämmer). Åtminstone för huvudeffekterna. Kan vara rätt klurigt med interaktioner. Gör undersökningen. Kolla på grafer. Utvärdera! Bygg modeller och testa. Presentera med en eller flera snygga grafer.
Lavstorlek Respons: Lavdiameter Exempel på förklaringsvariabler: Lönn / Björk / Ek Trädets omkrets ≈ trädets ålder Ren / Smutsig luft