首页 > 解决方案 > 基于计数的过滤因子变量

问题描述

我有一个包含房价数据的数据框,其中包含价格和许多变量。其中一个变量是房产的“子区域”,我正试图将其纳入各种回归中。但是,它是一个具有近 3000 个水平的因子变量。

例如:

table(df$sub_area)

La Jolla    
2

Carlsbad
5 

Esconsido 
1

..ETC

我想过滤掉那些只有 1 个计数的地方,因为它们没有提供太多的预测能力,但会增加大量的计算时间。但是,我想用空白或 NA 替换该属性的 sub_area 条目,因为我仍然想使用该属性的其余信息,例如卧室、浴室等。

作为参考,单个属性条目可能如下所示:

ID Beds Baths City     Sub_area     sqm... etc   
1   4     2    San Diego   La Jolla   100....

那我可以做

lm(价格 ~ 床 + 浴室 + 城市 + 分区)

在具有较少级别的新的较小 sub_area 变量下。

我想这样做是因为大多数预测价格能力都包含在我正在处理的位置的 sub_area 中。

标签: rregression

解决方案


单程:

areas <- names(which(table(df$Sub_area) > 10))
df$Sub_area[! df$Sub_area %in% areas] <- NA

推荐阅读