Dette har skjett i tidigere episode:

Dette har skjett i tidigere episode:
Regression Anova Hypotestestning Statistica, Excel

Dagens Brunch: Alla test hänger ihop Vilket test ska man välja?
Tolka grafer! Flera förklaringsvariabler på en gång Bygga statistiska modeller Jämföra statistiska modeller (= testa) R och R commander

Repetition av variabler
Respons (y) vs. Förklaring (x) Kontinuerliga variabler Kategoriska variabler Jämföra statistiska modeller (= testa)

- Kategorisk Responsvariabel Kontinuerlig Kontinuerlig Kategorisk
Myrstorlek 4.5 5.5 6.5 7.5 Knippfryle Vårfryle 0.0 0.2 0.4 0.6 0.8 1.0 Sannolikhet att välja vårfryle Kategorisk Responsvariabel Pissmyror Svartmyror 6 8 10 12 14 16 - Fröstorlek Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel

även: barplot, plot of means, boxplots
Logistisk stripchart Barplot (Stapeldiagram) Kategorisk Responsvariabel Scatterplot (Punktdiagram) Stripchart även: barplot, plot of means, boxplots Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel

Fisher’s exakta (Chi-2)
Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kategorisk Responsvariabel Regression även: korrelation Anova även: t-test Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel

Vanliga test Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kontinuerlig Regression, Korrelation ANOVA, (t-test) Respons Förklaring

En kontinuerlig responsvariabel & en eller flera förklaringsvariabler  Generell linjär modell
Regression, Korrelation ANOVA, (t-test) Respons Förklaring Kategorisk +

En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler  Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +

Generella linjära modeller med:
Flera kontinuerliga förklaringar brukar kallas multipel regression Flera kategoriska förklaringar brukar kallas flervägs-ANOVA En kontinuerlig förklaring och en (eller ibland flera) kategoriska förklaringar brukar kallas ANCOVA.

Jämföra modeller: Ett enkelt exempel
Lavdiameter i cm Trädomkrets i dm

Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?

plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5))
n <- 6 medel.x <- 3 sd.x <- 1 medel.y <- 3 sd.y <- 1 R2 <- 0 # OBS! NOLL! library(MASS) kovarians<- matrix(c(sd.y^2,rep(sqrt(R2)*sd.x*sd.y,2),sd.x^2),2,2) y.och.x <- mvrnorm(n=n,mu=c(medel.y,medel.x),Sigma=kovarians) y <- y.och.x[,1] x <- y.och.x[,2] plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) abline(lm(y~x), lwd=5, col="red")

Lavdiameter i cm Svar: p = 0,028 Trädomkrets i dm

Vad säger p-värdet? Hur stor är risken att få detta (eller ännu osannolikare) resultat av en slump. (Fast det egentligen inte finns någon skillnad.) Om p-värdet är < 0,05 Det är sjukt osannolikt att resultatet bara beror på slump. Om p-värdet är > 0,05 Det kan inte uteslutas att resultatet bara beror på slumpen. MEN!! Vi vet inte att det bara beror på slumpen. Det kan finnas en riktig skillnad. Även om vi inte kunde ”bevisa” det.

Är den röda linjen signifikant bättre än den blå (bara medel)?
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Alltså: Är den röda linjen signifikant bättre än den blå (bara medel)? Lavdiameter i cm mx <- y ~ x vs m0 <- y ~ 1 Trädomkrets i dm

Alltså: Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Är den röda linjen signifikant bättre än den blå? Det vill säga: Passar den röda linjen siginifikant bättre? Minskar bruset signifikant mycket? Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Lavdiameter i cm Trädomkrets i dm

Residualerna… …är det brus som inte förklaras av förklaringsvariabeln
Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln)  högre p-värde

mx <- y ~ x m0 <- y ~ 1 Förra sidan igen:
Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Lavdiameter i cm Trädomkrets i dm

mx <- y ~ x m0 <- y ~ 1 Svar: p = 0,028 Förra sidan igen:
Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Svar: p = 0,028

Artantal på 10 lokaler av olika storlek,
5 i Halland och 5 i Uppland. Lokal nr Artantal Area Landskap 1 30 2 Uppland 7 3 12 4 41 15 5 47 22 6 34 Halland 38 8 44 9 39 10 55 16

5 tänkbara förklaringsmodeller
Artantalet beror bara på medelvärdet. Artantalet beror på vilket landskap lokalen ligger i. Artantalet beror på hur stor area lokalen har. Artantalet beror både på i vilket landskap lokalen ligger OCH hur stor lokalen är. Artantalet beror på lokalens storlek, men förhållandet mellan storlek och artantal är olika i de olika landskapen.

m0  lm(artantal ~ 1)

m1  lm(artantal ~ landskap)

m2  lm(artantal ~ area)

m3  lm(artantal ~ landskap + area)

m.int  lm(artantal ~ landskap * area)

mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ landskap m0 <- artantal ~ # förklaras bara av totalmedlet

m3 <- aratntal ~ landskap + area

m3 <- aratntal ~ landskap + area p = 0,65

m.int  lm(artantal ~ landskap * area)

m3 <- aratntal ~ landskap + area p = 0,65

m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65

m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074

m1  lm(artantal ~ landskap)

m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067

m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067

m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017

m0  lm(artantal ~ 1)

m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017

Rast? Eller?

Husmossans skottlängd
Respons: Skottlängd Exempel på förklaringsvariabler: Jorddjup Barrskog /Blandskog

Bygga modeller!

Hussmossans skottlängd
m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup

Alla mossmodeller 2006

Hussmossans skottlängd
m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.

Behövs interaktionen?

Minskar bruset signifikant?

Jämför: mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup m3 <- skottlängd ~ skogstyp + jorddjup anova(mint,m3,test=”F”)  p = 0,60 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 60%. Interaktionen är inte signifikant. Stryk den ur modellen!

Tillför skogstyp något givet jorddjup?

Jämför: m3 <- skottlängd ~ jorddjup + skogstyp m2 <- skottlängd ~ jorddjup anova(m2,m3,test=”F”)  p = 0,049 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 4,9%. Skogstyp påverkar skottlängden signifikant. Skogstyp behåller vi i modellen!

Tillför jorddjup något givet skogstyp?

Jämför: m3 <- skottlängd ~ skogstyp + jorddjup m1 <- skottlängd ~ skogstyp anova(m1,m3,test=”F”)  p = 0,71 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 71%. Jorddjup är inte signifikant. Stryk den ur modellen!

Om vi skiter i jorddjup (som ju var crap!),
hur bra förklaring är skogstyp?

Jämför: m1 <- skottlängd ~ skogstyp m0 <- skottlängd ~ 1 anova(m1,m0,test=”F”)  p = 0,026 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 2,6%. Skogstyp ÄR signifikant. Den bästa modellen är: Klart!

Alla mossmodeller 2005

artantal ~ östorlek + avstånd. till
artantal ~ östorlek + avstånd.till.fastlandet fruktsättning ~ pollinatörsbesök * kväve.i.jorden andel.giftiga.klöverblad ~ i.eller.utanför.hage * djurslag * betesmarkens.ålder spindelnäts-storlek ~ spindelstorlek * kön + biotop spridningsavstånd ~ hårpensellängd + frövikt bytesstorlek ~ predatorart

Rast? Eller?

Krav för att få göra test med kontinuerlig förklaringsvariabel
Ungefär samma variation i alla grupper eller längs en kontinuerlig variabel Hyfsat normalfördelat brus (=residualer) Linjära modeller är oftast robusta, dvs oftast stämmer testet bra även om kraven inte uppfylls perfekt. Men vi kollar för säkerhets skull att det inte är helt åt tjottahejti.

Ungefär samma variation?
Fröstorlek i mm  10

Hyfsat normalfördelat brus (=residualer)
Histogram av responsvariabeln fröstorlek Histogram av residualerna 14 20 Äng 12 10 15 Skog Antal arter Antal arter 8 10 6 4 5 2 1 2 3 -1 -0,5 +0,5 Fröstorlek i mm Avstånd i mm från respektive gruppmedel

Hyfsat normalfördelade residualer
Blomantal ~ Bladlängd Histogram över residualer 35 12 30 10 8 25 Blomantal Antal datapunkter 6 20 4 15 2 10 6 8 10 12 14 16 -15 -10 -5 5 10 Bladlängd i cm Avstånd från regressionslinjen

Residualerna… …är det brus som inte förklaras av förklaringsvariabeln
Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln)  högre p-värde

Anova-style

Regression-style

Linjär modell-stil (moss -05)

Linjär model-style (moss -05)

Ögontröst-style

Log-transformering

Plus-effekt eller procent-effekt
200 500 500 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 300 Antal bladlöss 300 y 200 100 100 Procent-effekt Från 0-5:  2,5 = 200 Från 5-10: 200  2,5 = 500 80 1 2 3 4 5 6 7 8 9 10 Veckor x

Antal bladlöss Antal bladlöss Veckor Veckor

Ögontröst-style

Logtransformerad ögontröst

Ögontröst-style

Plus-effekt eller procent per procent
1 2 3 4 5 6 7 8 9 10 100 200 300 400 500 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 Frövikt i μg 300 y 100 100 Procent per procent Från 2,5 till 5 = 200%: 100  200% = 200 Från 5 till 10 = 200%:  200% = 400 Bladlängd i cm x

Frövikt i μg Frövikt i μg Bladlängd i cm Bladlängd i cm

Anolis Grod- & Kräldjur

Rast? eller eller

Samband mellan förklaringsvariablerna: Ett extremfall!
namn längd högerfot vänsterfot Didrik 190 28 27.5 Pelle 180 26 Martin 170 23.8 23.3 Niklas 24.4 24.9 Henrik 23.6 23.4 Åsa 25.5 25.7 Anja 175 22.5 23 Johanna 157.5 21.5 21.8 Sofia 160.5 22.7 Petra Alex 185 25.6

Är längden kopplat till fotstorlek?
m0 <- längd ~ 1 m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.

Samband mellan förklaringsvariablerna: Ett extremfall!

m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster

mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91

Öh? m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91 Öh?

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057

Fethårt korrelerade förklaringsvariabler!!

A B E D F a s t l a n d G C F Flest: Färst:

Korrelerade förklaringsvariabler
Plotta förklaringsvariablerna mot varandra! Ta bort vänsterfötter.

En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler  Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +

Braxengräs

mint <- braxengräs ~ log(area) + konn + log(area):konn
m3 <- braxengräs ~ log(area) + konn m2 <- braxengräs ~ konn m1 <- braxengräs ~ log(area) m0 <- braxengräs ~ 1

När ni gör er undersökning
Rita förväntade grafer (och grtafer för om förväntingarna inte stämmer). Åtminstone för huvudeffekterna. Kan vara rätt klurigt med interaktioner. Gör undersökningen. Kolla på grafer. Utvärdera! Bygg modeller och testa. Presentera med en eller flera snygga grafer.

Lavstorlek Respons: Lavdiameter Exempel på förklaringsvariabler:
Lönn / Björk / Ek Trädets omkrets ≈ trädets ålder Ren / Smutsig luft

Dette har skjett i tidigere episode:

Similar presentations

Presentation on theme: "Dette har skjett i tidigere episode:"— Presentation transcript:

Similar presentations

About project

Feedback

Войти

Auth with social network:

Dette har skjett i tidigere episode:

Similar presentations

Presentation on theme: "Dette har skjett i tidigere episode:"— Presentation transcript:

Similar presentations

About project

Feedback