r - 基于计数的过滤因子变量
问题描述
我有一个包含房价数据的数据框,其中包含价格和许多变量。其中一个变量是房产的“子区域”,我正试图将其纳入各种回归中。但是,它是一个具有近 3000 个水平的因子变量。
例如:
table(df$sub_area)
La Jolla
2
Carlsbad
5
Esconsido
1
..ETC
我想过滤掉那些只有 1 个计数的地方,因为它们没有提供太多的预测能力,但会增加大量的计算时间。但是,我想用空白或 NA 替换该属性的 sub_area 条目,因为我仍然想使用该属性的其余信息,例如卧室、浴室等。
作为参考,单个属性条目可能如下所示:
ID Beds Baths City Sub_area sqm... etc
1 4 2 San Diego La Jolla 100....
那我可以做
lm(价格 ~ 床 + 浴室 + 城市 + 分区)
在具有较少级别的新的较小 sub_area 变量下。
我想这样做是因为大多数预测价格能力都包含在我正在处理的位置的 sub_area 中。
解决方案
单程:
areas <- names(which(table(df$Sub_area) > 10))
df$Sub_area[! df$Sub_area %in% areas] <- NA
推荐阅读
- laravel - 如何从此函数获取 ID 并将其与我的其他表匹配以获取 Product_name (laravel)
- python - 我如何计算暂停预测中的短语
- r - 根据来自另一个数据帧的条件减去数据帧中的值
- django - Forgotten psql Password: sql: FATAL: password authentication failed for user "username"
- c# - 出现错误:远程主机c#强制关闭现有连接
- c# - 当前上下文中不存在名称“计数” - 如何修复
- javascript - 如何在仪表板上预览我的网页?
- dart - 导入的库 'package:geolocator/model/position.dart' 不能有部分指令
- azure-devops - Azure DevOps 测试计划成本
- python-3.x - 如果我将 mkdtemp() 用于 SESSION_FILE_DIR,则烧瓶会话不起作用