r - GLM:具有少数状态作为因子或数字的连续变量?
问题描述
我有一个基本问题。我正在运行带有数字预测器的二项式 GLM。其中一些预测变量的唯一值非常少——有些是 2,有些是 3,有些是 4。所有这些预测变量都在一个清晰且可解释的连续尺度上——我只是从尺度上很少的地方采样了很多次(我知道,不适合回归,但不能更改)。以下表为例。想象一下这个表像这样重复了 10,000 次以上,只是响应值不同:
回复 | pred1 | pred2 | 前3 |
---|---|---|---|
0 | 20 | 100 | 100 |
1 | 50 | 900 | 200 |
1 | 20 | 4000 | 800 |
0 | 50 | 100 | 900 |
1 | 20 | 900 | 100 |
0 | 50 | 4000 | 100 |
1 | 20 | 100 | 800 |
0 | 50 | 900 | 900 |
我的问题是:(何时)将这些预测变量转化为因子有意义吗?如果一个数字变量只包含 2 个唯一值,那么如果它是一个因子还是数字,它甚至会有所不同吗?我可以信任仅基于 3 或 4 个唯一值的估计值吗?将其作为一个因素并因此“承认”我们无法从我们采样的少数值中推断出线性回归线会更好吗?
我认为,因为它们都可以放在一个连续的范围内,所以让它们保持数字是有意义的,但我只是想确保我做的是正确的事情。
解决方案
推荐阅读
- c - Windbg条件断点不会中断?
- python - 将 .nmf 文件转换为 .wav 格式会执行显示 Restart: 且无输出的代码
- google-chrome - 即使 Chrome 堆快照显示零增量,任务管理器中的内存泄漏
- r - 针对特定值过滤 N 列
- python - 通过串口发送十六进制和二进制数据
- php - 雄辩的分离
- android - Android 9 应用程序菜单是深色背景上的深色文本
- python - How to set a custom prompt in pdb?
- google-chrome-extension - 如何获取和打印当前的活动标签信息
- sql - 从数据库中删除 datagridview 中的选定行