首页 > 解决方案 > 如何知道在 glm 中将预测变量分类为分类变量还是连续变量更好?

问题描述

我正在使用 glm 并建立了这个模型: glm(cbind(Number_F,Nbre_dead)~ Temperature*Transect*Elevation + Size + Number_I, data=marine_data, family=binomial(link=logit))

响应变量“cbind(Number_alive, Number_dead)”对应于实验结束时活着和死去的个体数量。

我已经转换了一些变量,以便程序将它们视为分类而不是连续的,例如:

marine_data$Elevation<-as.factor(marine_data$Elevation)
marine_data$Transect<-as.factor(marine_data$Transect)
marine_data$Size<-as.factor(marine_data$Size)

但是,我真的不明白为什么让一些变量是分类的而不是连续的更好?在我的数据中,“大小”对应于一个只能取两个值的变量(大小的两个类别:4-5mm 和 6-7mm),所以对于那个变量,这对我来说似乎很合乎逻辑,它应该是分类的。对于“横断面”,也只有两个类别(横断面 1;横断面 2)。对于变量“海拔”,我在每个样带中有 3 个种群,它们居住在两个样带之间相似的海拔高度(~200m、~800m、~1600m)。因此,该变量也只有 3 个“类别”。

我是否正确考虑变量是分类的而不是连续的?

在模型中,其他变量是:“温度”,对应于温度处理(6 种不同的处理)和“编号_I”,对应于个体的初始密度,即在实验开始时。

我也应该将它们归类为分类吗?每种方法的优缺点是什么?

谢谢你。

标签: rglm

解决方案


推荐阅读