r - 用不同尺度重新分类变量以在 R 中进行回归分析
问题描述
我正在将 R 用于大学统计项目,并且我正在努力寻找一种方法来重新编码具有不同大小的收入等级的年度“收入”调查变量:
5,200 英镑以下:108
5,200 英镑 - 15,599 英镑:487
15,600 英镑 - 25,999 英镑:603
26,000 英镑 - 36,399 英镑:510
36,400 英镑 - 46,799 英镑:395
46,800 英镑 - 74,999 英镑:539
75,000 英镑 - 149,999 英镑:349
150,000 英镑或更多:100
有没有办法对此进行分类,例如使用四分位数,以便我可以更有效地在线性回归中使用它?
谢谢!
编辑我到目前为止的内容:
levels(bes$y01_Annual)[levels(bes$y01_Annual)=="Not stated"|levels(bes$y01_Annual)=="Don't know"|levels(bes$y01_Annual)=="Prefer not to say"] = NA
bes$y01_Annual = as.numeric(bes$y01_Annual)
quartiles <- quantcut(bes$y01_Annual)
table(quartiles)
解决方案
也许使用每个间隔创建一个数据向量median
,复制n
次数(n
是该间隔中的记录数)?
正如您所要求的,它并没有严格地创建一个类别。但仍可能满足您的需求。
推荐阅读
- java - DefaultAuthenticationEventPublisher 不会向我的@EventListener 触发事件
- swift - AVAudioPlayer 间歇启动延迟
- vuex - 即使对于相同的值也可以观察存储突变
- javascript - 为什么 JavaScript map.has 方法不适用于数组?
- python - 重采样 CSV 中的时间戳
- java - springboot中应用程序运行失败不满足的依赖关系
- java - Micronaut:如何映射 HashMap 中的所有属性值?
- python - 错误:TypeError:传递给参数“输入”的值的 DataType uint8 不在允许值列表中:float16、bfloat16、float32、float64、int32
- python - 仅根据数据框中的 groupby 数据绘制表?
- r - 显示“ROI 中的错误:L_constraint.........”时的错误是什么?