首页 > 解决方案 > 数字/字符/因子回归量之间有什么区别?

问题描述

出于某种原因,我预计不同的数据类型(数字、字符、因子)在简单回归中会产生不同的结果。我构建了一个最小的数据示例,并惊讶地发现没有区别。

set.seed(1)
num <- sample(c(0,1), 10, replace=TRUE, prob=c(0.5, 0.5) )
fact <- factor(num, levels = c(0, 1))
char <- ifelse(num==0, "no", "yes")
y <- sample(seq(0,10), 10, replace=TRUE)
df <- data.frame(y, num, fact, char)
str(df)

lm(y ~ num, data=df)   # Y = 5.5 + 0.5 num
lm(y ~ char, data=df)  # Y = 5.5 + 0.5 char
lm(y ~ fact, data=df)  # Y = 5.5 + 0.5 fact

问题:在什么情况下这会导致问题?在什么情况下有必要将一种变量类型转换为另一种?

标签: rregressionvariable-types

解决方案


推荐阅读