Presentation laddar. Vänta.

Presentation laddar. Vänta.

Dette har skjett i tidigere episode:

Liknande presentationer


En presentation över ämnet: "Dette har skjett i tidigere episode:"— Presentationens avskrift:

1 Dette har skjett i tidigere episode:
Regression Anova Hypotestestning Statistica, Excel

2 Dagens Brunch: Alla test hänger ihop Vilket test ska man välja?
Tolka grafer! Flera förklaringsvariabler på en gång Bygga statistiska modeller Jämföra statistiska modeller (= testa) R och R commander

3 Repetition av variabler
Respons (y) vs. Förklaring (x) Kontinuerliga variabler Kategoriska variabler Jämföra statistiska modeller (= testa)

4

5 - Kategorisk Responsvariabel Kontinuerlig Kontinuerlig Kategorisk
Myrstorlek 4.5 5.5 6.5 7.5 Knippfryle Vårfryle 0.0 0.2 0.4 0.6 0.8 1.0 Sannolikhet att välja vårfryle Kategorisk Responsvariabel Pissmyror Svartmyror 6 8 10 12 14 16 - Fröstorlek Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel

6 även: barplot, plot of means, boxplots
Logistisk stripchart Barplot (Stapeldiagram) Kategorisk Responsvariabel Scatterplot (Punktdiagram) Stripchart även: barplot, plot of means, boxplots Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel

7 Fisher’s exakta (Chi-2)
Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kategorisk Responsvariabel Regression även: korrelation Anova även: t-test Kontinuerlig Kontinuerlig Kategorisk Förklaringsvariabel

8

9 Fisher’s exakta (Chi-2)
Vanliga test Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Kontinuerlig Regression, Korrelation ANOVA, (t-test) Respons Förklaring

10 En kontinuerlig responsvariabel & en eller flera förklaringsvariabler  Generell linjär modell
Regression, Korrelation ANOVA, (t-test) Respons Förklaring Kategorisk +

11 Fisher’s exakta (Chi-2)
En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler  Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +

12 Generella linjära modeller med:
Flera kontinuerliga förklaringar brukar kallas multipel regression Flera kategoriska förklaringar brukar kallas flervägs-ANOVA En kontinuerlig förklaring och en (eller ibland flera) kategoriska förklaringar brukar kallas ANCOVA.

13 Jämföra modeller: Ett enkelt exempel
Lavdiameter i cm Trädomkrets i dm

14 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?
Lavdiameter i cm Trädomkrets i dm

15 plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5))
n <- 6 medel.x <- 3 sd.x <- 1 medel.y <- 3 sd.y <- 1 R2 <- 0 # OBS! NOLL! library(MASS) kovarians<- matrix(c(sd.y^2,rep(sqrt(R2)*sd.x*sd.y,2),sd.x^2),2,2) y.och.x <- mvrnorm(n=n,mu=c(medel.y,medel.x),Sigma=kovarians) y <- y.och.x[,1] x <- y.och.x[,2] plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) abline(lm(y~x), lwd=5, col="red")

16 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?
Lavdiameter i cm Trädomkrets i dm

17 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning?
Lavdiameter i cm Svar: p = 0,028 Trädomkrets i dm

18 Vad säger p-värdet? Hur stor är risken att få detta (eller ännu osannolikare) resultat av en slump. (Fast det egentligen inte finns någon skillnad.) Om p-värdet är < 0,05 Det är sjukt osannolikt att resultatet bara beror på slump. Om p-värdet är > 0,05 Det kan inte uteslutas att resultatet bara beror på slumpen. MEN!! Vi vet inte att det bara beror på slumpen. Det kan finnas en riktig skillnad. Även om vi inte kunde ”bevisa” det.

19 Är den röda linjen signifikant bättre än den blå (bara medel)?
Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Alltså: Är den röda linjen signifikant bättre än den blå (bara medel)? Lavdiameter i cm mx <- y ~ x vs m0 <- y ~ 1 Trädomkrets i dm

20 Alltså: Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Är den röda linjen signifikant bättre än den blå? Det vill säga: Passar den röda linjen siginifikant bättre? Minskar bruset signifikant mycket? Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Lavdiameter i cm Trädomkrets i dm

21 Residualerna… …är det brus som inte förklaras av förklaringsvariabeln
Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln)  högre p-värde

22 mx <- y ~ x m0 <- y ~ 1 Förra sidan igen:
Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Lavdiameter i cm Trädomkrets i dm

23 mx <- y ~ x m0 <- y ~ 1 Svar: p = 0,028 Förra sidan igen:
Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Svar: p = 0,028

24

25 Artantal på 10 lokaler av olika storlek,
5 i Halland och 5 i Uppland. Lokal nr Artantal Area Landskap 1 30 2 Uppland 7 3 12 4 41 15 5 47 22 6 34 Halland 38 8 44 9 39 10 55 16

26 5 tänkbara förklaringsmodeller
Artantalet beror bara på medelvärdet. Artantalet beror på vilket landskap lokalen ligger i. Artantalet beror på hur stor area lokalen har. Artantalet beror både på i vilket landskap lokalen ligger OCH hur stor lokalen är. Artantalet beror på lokalens storlek, men förhållandet mellan storlek och artantal är olika i de olika landskapen.

27 m0  lm(artantal ~ 1)

28 m1  lm(artantal ~ landskap)

29 m2  lm(artantal ~ area)

30 m3  lm(artantal ~ landskap + area)

31 m.int  lm(artantal ~ landskap * area)

32 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ landskap m0 <- artantal ~ # förklaras bara av totalmedlet

33 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area

34 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area p = 0,65

35 m.int  lm(artantal ~ landskap * area)

36 m3  lm(artantal ~ landskap + area)

37 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area p = 0,65

38 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65

39 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074

40 m1  lm(artantal ~ landskap)

41 m3  lm(artantal ~ landskap + area)

42 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067

43 m2  lm(artantal ~ area)

44 m3  lm(artantal ~ landskap + area)

45 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067

46 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067

47 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017

48 m2  lm(artantal ~ area)

49 m0  lm(artantal ~ 1)

50 mint <- artantal ~ landskap + area + landskap:area
m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017

51 Rast? Eller?

52

53 Husmossans skottlängd
Respons: Skottlängd Exempel på förklaringsvariabler: Jorddjup Barrskog /Blandskog

54 Bygga modeller!

55 Hussmossans skottlängd
m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup

56 Alla mossmodeller 2006

57 Hussmossans skottlängd
m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.

58 Behövs interaktionen?

59 Minskar bruset signifikant?

60 Minskar bruset signifikant?
Jämför: mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup m3 <- skottlängd ~ skogstyp + jorddjup anova(mint,m3,test=”F”)  p = 0,60 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 60%. Interaktionen är inte signifikant. Stryk den ur modellen!

61 Tillför skogstyp något givet jorddjup?

62 Minskar bruset signifikant?

63 Minskar bruset signifikant?
Jämför: m3 <- skottlängd ~ jorddjup + skogstyp m2 <- skottlängd ~ jorddjup anova(m2,m3,test=”F”)  p = 0,049 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 4,9%. Skogstyp påverkar skottlängden signifikant. Skogstyp behåller vi i modellen!

64 Tillför jorddjup något givet skogstyp?

65 Minskar bruset signifikant?

66 Minskar bruset signifikant?
Jämför: m3 <- skottlängd ~ skogstyp + jorddjup m1 <- skottlängd ~ skogstyp anova(m1,m3,test=”F”)  p = 0,71 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 71%. Jorddjup är inte signifikant. Stryk den ur modellen!

67 Om vi skiter i jorddjup (som ju var crap!),
hur bra förklaring är skogstyp?

68 Minskar bruset signifikant?

69 Minskar bruset signifikant?
Jämför: m1 <- skottlängd ~ skogstyp m0 <- skottlängd ~ 1 anova(m1,m0,test=”F”)  p = 0,026 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 2,6%. Skogstyp ÄR signifikant. Den bästa modellen är: Klart!

70 Alla mossmodeller 2005

71 artantal ~ östorlek + avstånd. till
artantal ~ östorlek + avstånd.till.fastlandet fruktsättning ~ pollinatörsbesök * kväve.i.jorden andel.giftiga.klöverblad ~ i.eller.utanför.hage * djurslag * betesmarkens.ålder spindelnäts-storlek ~ spindelstorlek * kön + biotop spridningsavstånd ~ hårpensellängd + frövikt bytesstorlek ~ predatorart

72 Rast? Eller?

73 Krav för att få göra test med kontinuerlig förklaringsvariabel
Ungefär samma variation i alla grupper eller längs en kontinuerlig variabel Hyfsat normalfördelat brus (=residualer) Linjära modeller är oftast robusta, dvs oftast stämmer testet bra även om kraven inte uppfylls perfekt. Men vi kollar för säkerhets skull att det inte är helt åt tjottahejti.

74 Ungefär samma variation?
Fröstorlek i mm  10

75 Hyfsat normalfördelat brus (=residualer)
Histogram av responsvariabeln fröstorlek Histogram av residualerna 14 20 Äng 12 10 15 Skog Antal arter Antal arter 8 10 6 4 5 2 1 2 3 -1 -0,5 +0,5 Fröstorlek i mm Avstånd i mm från respektive gruppmedel

76 Hyfsat normalfördelade residualer
Blomantal ~ Bladlängd Histogram över residualer 35 12 30 10 8 25 Blomantal Antal datapunkter 6 20 4 15 2 10 6 8 10 12 14 16 -15 -10 -5 5 10 Bladlängd i cm Avstånd från regressionslinjen

77 Residualerna… …är det brus som inte förklaras av förklaringsvariabeln
Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln)  högre p-värde

78 Anova-style

79 Anova-style

80 Regression-style

81 Regression-style

82 Linjär modell-stil (moss -05)

83 Linjär model-style (moss -05)

84 Ögontröst-style

85 Ögontröst-style

86 Log-transformering

87 Plus-effekt eller procent-effekt
200 500 500 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 300 Antal bladlöss 300 y 200 100 100 Procent-effekt Från 0-5:  2,5 = 200 Från 5-10: 200  2,5 = 500 80 1 2 3 4 5 6 7 8 9 10 Veckor x

88 Antal bladlöss Antal bladlöss Veckor Veckor

89 Ögontröst-style

90 Logtransformerad ögontröst

91 Ögontröst-style

92

93 Plus-effekt eller procent per procent
1 2 3 4 5 6 7 8 9 10 100 200 300 400 500 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 Frövikt i μg 300 y 100 100 Procent per procent Från 2,5 till 5 = 200%: 100  200% = 200 Från 5 till 10 = 200%:  200% = 400 Bladlängd i cm x

94 Frövikt i μg Frövikt i μg Bladlängd i cm Bladlängd i cm

95

96 Anolis Grod- & Kräldjur

97 Rast? eller eller

98 Samband mellan förklaringsvariablerna: Ett extremfall!
namn längd högerfot vänsterfot Didrik 190 28 27.5 Pelle 180 26 Martin 170 23.8 23.3 Niklas 24.4 24.9 Henrik 23.6 23.4 Åsa 25.5 25.7 Anja 175 22.5 23 Johanna 157.5 21.5 21.8 Sofia 160.5 22.7 Petra Alex 185 25.6

99 Är längden kopplat till fotstorlek?
m0 <- längd ~ 1 m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går.

100 Samband mellan förklaringsvariablerna: Ett extremfall!

101 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster

102 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95

103 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95

104 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95

105 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33

106 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot p = 0,95 p = 0,33

107 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33

108 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91

109 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91

110 Öh? m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91 Öh?

111 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91

112 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

113 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

114 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

115 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057

116 m3 <- längd ~ högerfot + vänsterfot
mint <- längd ~ högerfot + vänsterfot + höger:vänster m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057

117 Fethårt korrelerade förklaringsvariabler!!

118 A B E D F a s t l a n d G C F Flest: Färst:

119 Korrelerade förklaringsvariabler
Plotta förklaringsvariablerna mot varandra! Ta bort vänsterfötter.

120

121 Fisher’s exakta (Chi-2)
En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler  Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta (Chi-2) Respons Förklaring Kontinuerlig +

122 Braxengräs

123

124 mint <- braxengräs ~ log(area) + konn + log(area):konn
m3 <- braxengräs ~ log(area) + konn m2 <- braxengräs ~ konn m1 <- braxengräs ~ log(area) m0 <- braxengräs ~ 1

125

126 När ni gör er undersökning
Rita förväntade grafer (och grtafer för om förväntingarna inte stämmer). Åtminstone för huvudeffekterna. Kan vara rätt klurigt med interaktioner. Gör undersökningen. Kolla på grafer. Utvärdera! Bygg modeller och testa. Presentera med en eller flera snygga grafer.

127 Lavstorlek Respons: Lavdiameter Exempel på förklaringsvariabler:
Lönn / Björk / Ek Trädets omkrets ≈ trädets ålder Ren / Smutsig luft


Ladda ner ppt "Dette har skjett i tidigere episode:"

Liknande presentationer


Google-annonser