首页 > 解决方案 > GLM:具有少数状态作为因子或数字的连续变量?

问题描述

我有一个基本问题。我正在运行带有数字预测器的二项式 GLM。其中一些预测变量的唯一值非常少——有些是 2,有些是 3,有些是 4。所有这些预测变量都在一个清晰且可解释的连续尺度上——我只是从尺度上很少的地方采样了很多次(我知道,不适合回归,但不能更改)。以下表为例。想象一下这个表像这样重复了 10,000 次以上,只是响应值不同:

回复 pred1 pred2 前3
0 20 100 100
1 50 900 200
1 20 4000 800
0 50 100 900
1 20 900 100
0 50 4000 100
1 20 100 800
0 50 900 900

我的问题是:(何时)将这些预测变量转化为因子有意义吗?如果一个数字变量只包含 2 个唯一值,那么如果它是一个因子还是数字,它甚至会有所不同吗?我可以信任仅基于 3 或 4 个唯一值的估计值吗?将其作为一个因素并因此“承认”我们无法从我们采样的少数值中推断出线性回归线会更好吗?

我认为,因为它们都可以放在一个连续的范围内,所以让它们保持数字是有意义的,但我只是想确保我做的是正确的事情。

标签: rglmcontinuous

解决方案


推荐阅读