首页 > 解决方案 > 用不同尺度重新分类变量以在 R 中进行回归分析

问题描述

我正在将 R 用于大学统计项目,并且我正在努力寻找一种方法来重新编码具有不同大小的收入等级的年度“收入”调查变量:

5,200 英镑以下:108

5,200 英镑 - 15,599 英镑:487

15,600 英镑 - 25,999 英镑:603

26,000 英镑 - 36,399 英镑:510

36,400 英镑 - 46,799 英镑:395

46,800 英镑 - 74,999 英镑:539

75,000 英镑 - 149,999 英镑:349

150,000 英镑或更多:100

有没有办法对此进行分类,例如使用四分位数,以便我可以更有效地在线性回归中使用它?

谢谢!

编辑我到目前为止的内容:

levels(bes$y01_Annual)[levels(bes$y01_Annual)=="Not stated"|levels(bes$y01_Annual)=="Don't know"|levels(bes$y01_Annual)=="Prefer not to say"] = NA

bes$y01_Annual = as.numeric(bes$y01_Annual)

quartiles <- quantcut(bes$y01_Annual)
table(quartiles)

标签: r

解决方案


也许使用每个间隔创建一个数据向量median,复制n次数(n是该间隔中的记录数)?

正如您所要求的,它并没有严格地创建一个类别。但仍可能满足您的需求。


推荐阅读