Ladda ner presentationen
Presentation laddar. Vänta.
1
Dette har skjett i tidigere episode:
Regression Anova Hypotestestning Statistica, Excel
2
Dagens Brunch: Alla test hänger ihop Vilket test ska man välja?
Tolka grafer! Flera förklaringsvariabler på en gång Bygga statistiska modeller Jämföra statistiska modeller (= testa) R och R commander
3
Repetition av variabler
Respons (y) vs. Förklaring (x) Kontinuerliga variabler Kategoriska variabler Jämföra statistiska modeller (= testa)
5
- Kategorisk Responsvariabel Kontinuerlig Kontinuerlig Kategorisk
Myrstorlek 4.5 5.5 6.5 7.5 Knippfryle Vårfryle 0.0 0.2 0.4 0.6 0.8 1.0 Sannolikhet att välja vårfryle Kategorisk Responsvariabel Pissmyror Svartmyror 6 8 10 12 14 16 - Fröstorlek Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
6
även: barplot, plot of means, boxplots
Logistisk stripchart Barplot (Stapeldiagram) Kategorisk Responsvariabel Scatterplot (Punktdiagram) Stripchart även: barplot, plot of means, boxplots Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
7
Fisher’s exakta (Chi-2)
Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kategorisk Responsvariabel Regression även: korrelation Anova även: t-test Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel
9
Fisher’s exakta (Chi-2)
Vanliga test Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kontinuerlig Regression, Korrelation ANOVA, (t-test) Respons Förklaring
10
En kontinuerlig responsvariabel & en eller flera förklaringsvariabler Generell linjär modell
Regression, Korrelation ANOVA, (t-test) Respons Förklaring Kategorisk +
11
Fisher’s exakta (Chi-2)
En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +
12
Generella linjära modeller med:
Flera kontinuerliga förklaringar brukar kallas multipel regression Flera kategoriska förklaringar brukar kallas flervägs-ANOVA En kontinuerlig förklaring och en (eller ibland flera) kategoriska förklaringar brukar kallas ANCOVA.
13
Jämföra modeller: Ett enkelt exempel
Lavdiameter i cm Trädomkrets i dm
14
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?
Lavdiameter i cm Trädomkrets i dm
15
plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5))
n <- 6 medel.x <- 3 sd.x <- 1 medel.y <- 3 sd.y <- 1 R2 <- 0 # OBS! NOLL! library(MASS) kovarians<- matrix(c(sd.y^2,rep(sqrt(R2)*sd.x*sd.y,2),sd.x^2),2,2) y.och.x <- mvrnorm(n=n,mu=c(medel.y,medel.x),Sigma=kovarians) y <- y.och.x[,1] x <- y.och.x[,2] plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) abline(lm(y~x), lwd=5, col="red")
16
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?
Lavdiameter i cm Trädomkrets i dm
17
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?
Lavdiameter i cm Svar: p = 0,028 Trädomkrets i dm
18
Vad säger p-värdet? Hur stor är risken att få detta (eller ännu osannolikare) resultat av en slump. (Fast det egentligen inte finns någon skillnad.) Om p-värdet är < 0,05 Det är sjukt osannolikt att resultatet bara beror på slump. Om p-värdet är > 0,05 Det kan inte uteslutas att resultatet bara beror på slumpen. MEN!! Vi vet inte att det bara beror på slumpen. Det kan finnas en riktig skillnad. Även om vi inte kunde ”bevisa” det.
19
Är den röda linjen signifikant bättre än den blå (bara medel)?
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Alltså: Är den röda linjen signifikant bättre än den blå (bara medel)? Lavdiameter i cm mx <- y ~ x vs m0 <- y ~ 1 Trädomkrets i dm
20
Alltså: Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Är den röda linjen signifikant bättre än den blå? Det vill säga: Passar den röda linjen siginifikant bättre? Minskar bruset signifikant mycket? Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Lavdiameter i cm Trädomkrets i dm
21
Residualerna… …är det brus som inte förklaras av förklaringsvariabeln
Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln) högre p-värde
22
mx <- y ~ x m0 <- y ~ 1 Förra sidan igen:
Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Lavdiameter i cm Trädomkrets i dm
23
mx <- y ~ x m0 <- y ~ 1 Svar: p = 0,028 Förra sidan igen:
Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Svar: p = 0,028
25
Artantal på 10 lokaler av olika storlek,
5 i Halland och 5 i Uppland. Lokal nr Artantal Area Landskap 1 30 2 Uppland 7 3 12 4 41 15 5 47 22 6 34 Halland 38 8 44 9 39 10 55 16
26
5 tänkbara förklaringsmodeller
Artantalet beror bara på medelvärdet. Artantalet beror på vilket landskap lokalen ligger i. Artantalet beror på hur stor area lokalen har. Artantalet beror både på i vilket landskap lokalen ligger OCH hur stor lokalen är. Artantalet beror på lokalens storlek, men förhållandet mellan storlek och artantal är olika i de olika landskapen.
27
m0 lm(artantal ~ 1)
28
m1 lm(artantal ~ landskap)
29
m2 lm(artantal ~ area)
30
m3 lm(artantal ~ landskap + area)
31
m.int lm(artantal ~ landskap * area)
32
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ landskap m0 <- artantal ~ # förklaras bara av totalmedlet
33
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area
34
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area p = 0,65
35
m.int lm(artantal ~ landskap * area)
36
m3 lm(artantal ~ landskap + area)
37
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area p = 0,65
38
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65
39
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074
40
m1 lm(artantal ~ landskap)
41
m3 lm(artantal ~ landskap + area)
42
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067
43
m2 lm(artantal ~ area)
44
m3 lm(artantal ~ landskap + area)
45
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067
46
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067
47
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017
48
m2 lm(artantal ~ area)
49
m0 lm(artantal ~ 1)
50
mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017
51
Rast? Eller?
53
Husmossans skottlängd
Respons: Skottlängd Exempel på förklaringsvariabler: Jorddjup Barrskog /Blandskog
54
Bygga modeller!
55
Hussmossans skottlängd
m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup
56
Alla mossmodeller 2006
57
Hussmossans skottlängd
m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.
58
Behövs interaktionen?
59
Minskar bruset signifikant?
60
Minskar bruset signifikant?
Jämför: mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup m3 <- skottlängd ~ skogstyp + jorddjup anova(mint,m3,test=”F”) p = 0,60 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 60%. Interaktionen är inte signifikant. Stryk den ur modellen!
61
Tillför skogstyp något givet jorddjup?
62
Minskar bruset signifikant?
63
Minskar bruset signifikant?
Jämför: m3 <- skottlängd ~ jorddjup + skogstyp m2 <- skottlängd ~ jorddjup anova(m2,m3,test=”F”) p = 0,049 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 4,9%. Skogstyp påverkar skottlängden signifikant. Skogstyp behåller vi i modellen!
64
Tillför jorddjup något givet skogstyp?
65
Minskar bruset signifikant?
66
Minskar bruset signifikant?
Jämför: m3 <- skottlängd ~ skogstyp + jorddjup m1 <- skottlängd ~ skogstyp anova(m1,m3,test=”F”) p = 0,71 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 71%. Jorddjup är inte signifikant. Stryk den ur modellen!
67
Om vi skiter i jorddjup (som ju var crap!),
hur bra förklaring är skogstyp?
68
Minskar bruset signifikant?
69
Minskar bruset signifikant?
Jämför: m1 <- skottlängd ~ skogstyp m0 <- skottlängd ~ 1 anova(m1,m0,test=”F”) p = 0,026 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 2,6%. Skogstyp ÄR signifikant. Den bästa modellen är: Klart!
70
Alla mossmodeller 2005
71
artantal ~ östorlek + avstånd. till
artantal ~ östorlek + avstånd.till.fastlandet fruktsättning ~ pollinatörsbesök * kväve.i.jorden andel.giftiga.klöverblad ~ i.eller.utanför.hage * djurslag * betesmarkens.ålder spindelnäts-storlek ~ spindelstorlek * kön + biotop spridningsavstånd ~ hårpensellängd + frövikt bytesstorlek ~ predatorart
72
Rast? Eller?
73
Krav för att få göra test med kontinuerlig förklaringsvariabel
Ungefär samma variation i alla grupper eller längs en kontinuerlig variabel Hyfsat normalfördelat brus (=residualer) Linjära modeller är oftast robusta, dvs oftast stämmer testet bra även om kraven inte uppfylls perfekt. Men vi kollar för säkerhets skull att det inte är helt åt tjottahejti.
74
Ungefär samma variation?
Fröstorlek i mm 10
75
Hyfsat normalfördelat brus (=residualer)
Histogram av responsvariabeln fröstorlek Histogram av residualerna 14 20 Äng 12 10 15 Skog Antal arter Antal arter 8 10 6 4 5 2 1 2 3 -1 -0,5 +0,5 Fröstorlek i mm Avstånd i mm från respektive gruppmedel
76
Hyfsat normalfördelade residualer
Blomantal ~ Bladlängd Histogram över residualer 35 12 30 10 8 25 Blomantal Antal datapunkter 6 20 4 15 2 10 6 8 10 12 14 16 -15 -10 -5 5 10 Bladlängd i cm Avstånd från regressionslinjen
77
Residualerna… …är det brus som inte förklaras av förklaringsvariabeln
Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln) högre p-värde
78
Anova-style
79
Anova-style
80
Regression-style
81
Regression-style
82
Linjär modell-stil (moss -05)
83
Linjär model-style (moss -05)
84
Ögontröst-style
85
Ögontröst-style
86
Log-transformering
87
Plus-effekt eller procent-effekt
200 500 500 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 300 Antal bladlöss 300 y 200 100 100 Procent-effekt Från 0-5: 2,5 = 200 Från 5-10: 200 2,5 = 500 80 1 2 3 4 5 6 7 8 9 10 Veckor x
88
Antal bladlöss Antal bladlöss Veckor Veckor
89
Ögontröst-style
90
Logtransformerad ögontröst
91
Ögontröst-style
93
Plus-effekt eller procent per procent
1 2 3 4 5 6 7 8 9 10 100 200 300 400 500 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 Frövikt i μg 300 y 100 100 Procent per procent Från 2,5 till 5 = 200%: 100 200% = 200 Från 5 till 10 = 200%: 200% = 400 Bladlängd i cm x
94
Frövikt i μg Frövikt i μg Bladlängd i cm Bladlängd i cm
96
Anolis Grod- & Kräldjur
97
Rast? eller eller
98
Samband mellan förklaringsvariablerna: Ett extremfall!
namn längd högerfot vänsterfot Didrik 190 28 27.5 Pelle 180 26 Martin 170 23.8 23.3 Niklas 24.4 24.9 Henrik 23.6 23.4 Åsa 25.5 25.7 Anja 175 22.5 23 Johanna 157.5 21.5 21.8 Sofia 160.5 22.7 Petra Alex 185 25.6
99
Är längden kopplat till fotstorlek?
m0 <- längd ~ 1 m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.
100
Samband mellan förklaringsvariablerna: Ett extremfall!
101
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster
102
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95
103
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95
104
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95
105
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33
106
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33
107
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33
108
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91
109
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91
110
Öh? m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91 Öh?
111
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91
112
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010
113
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010
114
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010
115
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057
116
m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057
117
Fethårt korrelerade förklaringsvariabler!!
118
A B E D F a s t l a n d G C F Flest: Färst:
119
Korrelerade förklaringsvariabler
Plotta förklaringsvariablerna mot varandra! Ta bort vänsterfötter.
121
Fisher’s exakta (Chi-2)
En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +
122
Braxengräs
124
mint <- braxengräs ~ log(area) + konn + log(area):konn
m3 <- braxengräs ~ log(area) + konn m2 <- braxengräs ~ konn m1 <- braxengräs ~ log(area) m0 <- braxengräs ~ 1
126
När ni gör er undersökning
Rita förväntade grafer (och grtafer för om förväntingarna inte stämmer). Åtminstone för huvudeffekterna. Kan vara rätt klurigt med interaktioner. Gör undersökningen. Kolla på grafer. Utvärdera! Bygg modeller och testa. Presentera med en eller flera snygga grafer.
127
Lavstorlek Respons: Lavdiameter Exempel på förklaringsvariabler:
Lönn / Björk / Ek Trädets omkrets ≈ trädets ålder Ren / Smutsig luft
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.