Presentation laddar. Vänta.

Presentation laddar. Vänta.

Dette har skjett i tidigere episode: Regression Anova Hypotestestning Statistica, Excel.

Liknande presentationer


En presentation över ämnet: "Dette har skjett i tidigere episode: Regression Anova Hypotestestning Statistica, Excel."— Presentationens avskrift:

1 Dette har skjett i tidigere episode: Regression Anova Hypotestestning Statistica, Excel

2 Dagens Brunch: Alla test hänger ihop Vilket test ska man välja? Tolka grafer! Flera förklaringsvariabler på en gång Bygga statistiska modeller Jämföra statistiska modeller (= testa) R och R commander

3 Repetition av variabler Respons (y) vs. Förklaring (x) Kontinuerliga variabler Kategoriska variabler Jämföra statistiska modeller (= testa)

4

5 Myrstorlek Knippfryle Vårfryle Sannolikhet att välja vårfryle KontinuerligKategorisk Kontinuerlig Kategorisk Förklaringsvariabel Responsvariabel

6 KontinuerligKategorisk Kontinuerlig Kategorisk Förklaringsvariabel Responsvariabel Scatterplot (Punktdiagram) Barplot (Stapeldiagram) Stripchart även: barplot, plot of means, boxplots Logistisk stripchart

7 KontinuerligKategorisk Kontinuerlig Kategorisk Förklaringsvariabel Responsvariabel Regression även: korrelation Anova även: t-test Logistisk regression 2×2-test Fisher’s exakta ( Chi-2)

8

9 Kategorisk Logistisk regression 2×2-test Fisher’s exakta ( Chi-2) Kontinuerlig Regression, Korrelation ANOVA, (t-test) Respons Förklaring KontinuerligKategorisk Vanliga test

10 Kontinuerlig Regression, Korrelation ANOVA, (t-test) Respons Förklaring KontinuerligKategorisk En kontinuerlig responsvariabel & en eller flera förklaringsvariabler  Generell linjär modell +

11 En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler  Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta ( Chi-2) Respons Förklaring KontinuerligKategorisk +

12 Generella linjära modeller med: Flera kontinuerliga förklaringar brukar kallas multipel regression Flera kategoriska förklaringar brukar kallas flervägs-ANOVA En kontinuerlig förklaring och en (eller ibland flera) kategoriska förklaringar brukar kallas ANCOVA.

13 Jämföra modeller: Ett enkelt exempel Trädomkrets i dm Lavdiameter i cm

14 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Trädomkrets i dm Lavdiameter i cm

15 n <- 6 medel.x <- 3 sd.x <- 1 medel.y <- 3 sd.y <- 1 R2 <- 0 # OBS! NOLL! library(MASS) kovarians<- matrix(c(sd.y^2,rep(sqrt(R2)*sd.x*sd.y,2),sd.x^2),2,2) y.och.x <- mvrnorm(n=n,mu=c(medel.y,medel.x),Sigma=kovarians) y <- y.och.x[,1] x <- y.och.x[,2] plot(x,y,pch=19,cex=3,ylim=c(0,5),xlim=c(0,5)) abline(lm(y~x), lwd=5, col="red")

16 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Trädomkrets i dm Lavdiameter i cm

17 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Trädomkrets i dm Lavdiameter i cm Svar: p = 0,028

18 Vad säger p-värdet? Hur stor är risken att få detta (eller ännu osannolikare) resultat av en slump. (Fast det egentligen inte finns någon skillnad.) Om p-värdet är < 0,05 Det är sjukt osannolikt att resultatet bara beror på slump. Om p-värdet är > 0,05 Det kan inte uteslutas att resultatet bara beror på slumpen. MEN!! Vi vet inte att det bara beror på slumpen. Det kan finnas en riktig skillnad. Även om vi inte kunde ”bevisa” det.

19 Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Alltså: Är den röda linjen signifikant bättre än den blå (bara medel)? mx <- y ~ x vs m0 <- y ~ 1 Trädomkrets i dm Lavdiameter i cm

20 Alltså: Vad är chansen att av en slump få ett stickprov som ger en sådan lutning? Är den röda linjen signifikant bättre än den blå? Det vill säga: Passar den röda linjen siginifikant bättre? Minskar bruset signifikant mycket? Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Trädomkrets i dm Lavdiameter i cm

21 Residualerna… …är det brus som inte förklaras av förklaringsvariabeln Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln)  högre p-värde

22 Förra sidan igen: Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Trädomkrets i dm Lavdiameter i cm

23 Förra sidan igen: Vad är chansen att av en slump få ett stickprov där bruset minskar så mycket med en röd linje? Samma sak: Vad är chansen att av en slump få ett stickprov där modellen mx <- y ~ x ger en så här stor minskning i brus jämfört med modellen m0 <- y ~ 1 Svar: p = 0,028

24

25 Artantal på 10 lokaler av olika storlek, 5 i Halland och 5 i Uppland. Lokal nrArtantalAreaLandskap 1302Uppland 2307Uppland 33012Uppland 44115Uppland 54722Uppland 6344Halland 7388Halland 84412Halland 93915Halland Halland

26 5 tänkbara förklaringsmodeller 1. Artantalet beror bara på medelvärdet. 2. Artantalet beror på vilket landskap lokalen ligger i. 3. Artantalet beror på hur stor area lokalen har. 4. Artantalet beror både på i vilket landskap lokalen ligger OCH hur stor lokalen är. 5. Artantalet beror på lokalens storlek, men förhållandet mellan storlek och artantal är olika i de olika landskapen.

27 m0  lm(artantal ~ 1)

28 m1  lm(artantal ~ landskap)

29 m2  lm(artantal ~ area)

30 m3  lm(artantal ~ landskap + area)

31 m.int  lm(artantal ~ landskap * area)

32 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ landskap m0 <- artantal ~ 1 # förklaras bara av totalmedlet

33 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area

34 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area p = 0,65

35 m.int  lm(artantal ~ landskap * area)

36 m3  lm(artantal ~ landskap + area)

37 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area p = 0,65

38 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65

39 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65 p = 0,0074

40 m1  lm(artantal ~ landskap)

41 m3  lm(artantal ~ landskap + area)

42 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067

43 m2  lm(artantal ~ area)

44 m3  lm(artantal ~ landskap + area)

45 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area p = 0,65 p = 0,0074 p = 0,067

46 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067

47 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017

48 m2  lm(artantal ~ area)

49 m0  lm(artantal ~ 1)

50 mint <- artantal ~ landskap + area + landskap:area m3 <- aratntal ~ landskap + area m3 <- artantal ~ landskap + area m1 <- artantal ~ landskap m3 <- artantal ~ landskap + area m2 <- artantal ~ area m1 <- artantal ~ area m0 <- artantal ~ 1 p = 0,65 p = 0,0074 p = 0,067 p = 0,017

51 Rast? Eller?

52

53 Respons: Skottlängd Exempel på förklaringsvariabler: Jorddjup Barrskog /Blandskog Husmossans skottlängd

54 Bygga modeller!

55 m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup Hussmossans skottlängd

56 Alla mossmodeller 2006

57 m0 <- skottlängd ~ 1 m1 <- skottlängd ~ skogstyp m2 <- skottlängd ~ jorddjup m3 <- skottlängd ~ skogstyp + jorddjup mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går. Hussmossans skottlängd

58 Behövs interaktionen?

59 Minskar bruset signifikant?

60 Jämför: mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup m3 <- skottlängd ~ skogstyp + jorddjup anova(mint,m3,test=”F”)  p = 0,60 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 60%. Interaktionen är inte signifikant. Stryk den ur modellen! mint <- skottlängd ~ skogstyp + jorddjup + skogstyp:jorddjup

61 Tillför skogstyp något givet jorddjup?

62 Minskar bruset signifikant?

63 Jämför: m3 <- skottlängd ~ jorddjup + skogstyp m2 <- skottlängd ~ jorddjup anova(m2,m3,test=”F”)  p = 0,049 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 4,9%. Skogstyp påverkar skottlängden signifikant. Skogstyp behåller vi i modellen! m3 <- skottlängd ~ jorddjup + skogstyp

64 Tillför jorddjup något givet skogstyp?

65 Minskar bruset signifikant?

66 Jämför: m3 <- skottlängd ~ skogstyp + jorddjup m1 <- skottlängd ~ skogstyp anova(m1,m3,test=”F”)  p = 0,71 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 71%. Jorddjup är inte signifikant. Stryk den ur modellen! m3 <- skottlängd ~ skogstyp + jorddjup

67 Om vi skiter i jorddjup (som ju var crap!), hur bra förklaring är skogstyp?

68 Minskar bruset signifikant?

69 Jämför: m1 <- skottlängd ~ skogstyp m0 <- skottlängd ~ 1 anova(m1,m0,test=”F”)  p = 0,026 Chansen att få ett stickprov som ger en så stor brusminskning av en slump är 2,6%. Skogstyp ÄR signifikant. Den bästa modellen är: m1 <- skottlängd ~ skogstyp Klart!

70 Alla mossmodeller 2005

71 artantal ~ östorlek + avstånd.till.fastlandet fruktsättning ~ pollinatörsbesök * kväve.i.jorden andel.giftiga.klöverblad ~ i.eller.utanför.hage * djurslag * betesmarkens.ålder spindelnäts-storlek ~ spindelstorlek * kön + biotop spridningsavstånd ~ hårpensellängd + frövikt bytesstorlek ~ predatorart

72 Rast? Eller?

73 Krav för att få göra test med kontinuerlig förklaringsvariabel Ungefär samma variation i alla grupper eller längs en kontinuerlig variabel Hyfsat normalfördelat brus (=residualer) Linjära modeller är oftast robusta, dvs oftast stämmer testet bra även om kraven inte uppfylls perfekt. Men vi kollar för säkerhets skull att det inte är helt åt tjottahejti.

74 Ungefär samma variation? Fröstorlek i mm  10

75 Hyfsat normalfördelat brus (=residualer) Histogram av responsvariabeln fröstorlek Fröstorlek i mm Antal arter Äng Skog -0,50+0, Antal arter Histogram av residualerna Avstånd i mm från respektive gruppmedel

76 Hyfsat normalfördelade residualer Blomantal ~ Bladlängd Bladlängd i cm Blomantal Histogram över residualer Avstånd från regressionslinjen Antal datapunkter

77 Residualerna… …är det brus som inte förklaras av förklaringsvariabeln Bruset kan bestå av mätfel, faktorer som vi inte kollat eller ”ren slump” I en regression är residualerna avståndet från datapunkterna till regressionslinjen I en Anova är residualerna avståndet från datapunkterna till gruppens medelvärde Ju större brus desto svårare att se signalen (av förklaringsvariabeln)  högre p-värde

78 Anova-style

79

80 Regression-style

81

82 Linjär modell-stil (moss -05)

83 Linjär model-style (moss -05)

84 Ögontröst-style

85

86 Log-transformering

87 x y Procent-effekt Från 0-5: 80  2,5 = 200 Från 5-10: 200  2,5 = 500 Plus-effekt Från 0-5: = 200 Från 5-10: = 300 Plus-effekt eller procent-effekt Antal bladlöss Veckor

88 Antal bladlöss Veckor Antal bladlöss Veckor

89 Ögontröst-style

90 Logtransformerad ögontröst

91 Ögontröst-style

92

93 Plus-effekt eller procent per procent x y Frövikt i μ g Bladlängd i cm Procent per procent Från 2,5 till 5 = 200%: 100  200% = 200 Från 5 till 10 = 200%: 200  200% = 400 Plus-effekt Från 0-5: = 200 Från 5-10: = 300

94 Frövikt i μ g Bladlängd i cm Frövikt i μ g Bladlängd i cm

95

96 Anolis Grod- & Kräldjur

97 Rast? eller

98 Samband mellan förklaringsvariablerna: Ett extremfall! namnlängdhögerfotvänsterfot Didrik Pelle18026 Martin Niklas Henrik Åsa Anja Johanna Sofia Petra Alex

99 m0 <- längd ~ 1 m1 <- längd ~ högerfot m2 <- längd ~ vänsterfot m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster Börja nerifrån! = Börja med den mest komplicerade förklaringen. Reducera modellen! Så långt det går. Är längden kopplat till fotstorlek?

100 Samband mellan förklaringsvariablerna: Ett extremfall!

101 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster

102 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95

103 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster p = 0,95

104 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot p = 0,95

105 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot p = 0,95 p = 0,33

106 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot p = 0,95 p = 0,33

107 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33

108 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91

109 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91

110 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot p = 0,95 p = 0,33 p = 0,91 Öh?

111 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot m1 <- längd ~ högerfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91

112 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot m1 <- längd ~ högerfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

113 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot m1 <- längd ~ högerfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

114 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot m1 <- längd ~ högerfot m0 <- längd ~ 1 m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010

115 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot m1 <- längd ~ högerfot m0 <- längd ~ 1 m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057

116 m3 <- längd ~ högerfot + vänsterfot mint <- längd ~ högerfot + vänsterfot + höger:vänster m3 <- längd ~ högerfot + vänsterfot m1 <- längd ~ högerfot m3 <- längd ~ högerfot + vänsterfot m2 <- längd ~ vänsterfot m1 <- längd ~ högerfot m0 <- längd ~ 1 m2 <- längd ~ vänsterfot m0 <- längd ~ 1 p = 0,95 p = 0,33 p = 0,91 p = 0,0010 p = 0,00057

117 Fethårt korrelerade förklaringsvariabler!! R 2 = 0,96

118 Flest:Färst: A B E G D F C F a s t l a n d

119 Korrelerade förklaringsvariabler Plotta förklaringsvariablerna mot varandra! Ta bort vänsterfötter.

120

121 En binär responsvariabel (Antingen... Eller...) & en eller flera förklaringsvariabler  Generaliserad linjär modell Kategorisk Logistisk regression 2×2-test Fisher’s exakta ( Chi-2) Respons Förklaring KontinuerligKategorisk +

122 Braxengräs

123

124 mint <- braxengräs ~ log(area) + konn + log(area):konn m3 <- braxengräs ~ log(area) + konn m2 <- braxengräs ~ konn m1 <- braxengräs ~ log(area) m0 <- braxengräs ~ 1

125

126 Rita förväntade grafer (och grtafer för om förväntingarna inte stämmer). Åtminstone för huvudeffekterna. Kan vara rätt klurigt med interaktioner. Gör undersökningen. Kolla på grafer. Utvärdera! Bygg modeller och testa. Presentera med en eller flera snygga grafer. När ni gör er undersökning

127 Respons: Lavdiameter Exempel på förklaringsvariabler: Lönn / Björk / Ek Trädets omkrets ≈ trädets ålder Ren / Smutsig luft Lavstorlek


Ladda ner ppt "Dette har skjett i tidigere episode: Regression Anova Hypotestestning Statistica, Excel."

Liknande presentationer


Google-annonser