python - 具有多列和数据类型的数据集的异常值处理
问题描述
我有一个数据集,我正在处理近 30k 行和 180 多列。我坚持异常值处理步骤。我正在使用一个函数(如下所述)但是,我无法理解错误:
(""名称'is_numeric_dtype'未定义"")
是否有任何其他更好的方法可用于大型数据集,因为不建议单独处理异常值。
def remove_outlier(df):
low = .05
high = .95
quant_df = df.quantile([low, high])
for name in list(df.columns):
if is_numeric_dtype(df.name):
df = df[(df[name] > quant_df.loc[low, name])
& (df[name] < quant_df.loc[high, name])]
return df
remove_outlier(data_hvc)
解决方案
从这个片段中,我没有看到您定义了变量 is_numeric_dtype。这是某种全局变量吗?
推荐阅读
- php - 如何将 Android 设备转换为 Web 服务器
- identityserver4 - 令牌刷新存储以允许 refresh_token
- postgresql - 当 args 数很大时,数据库/sql 无法选择查询
- .net - 在 .NET Core Framework 中从 .NET 重新创建 WebApi 代码
- python - PatsyError:数据参数之间的行数不匹配
- c# - 按摩盒不显示实体框架核心
- ruby-on-rails - 具有聚合的 Searchkick (Elasticsearch) 直方图 - 扩展范围
- javascript - 如何更改 discord.js 中的日期格式
- python - 有快速合成两张图片的功能吗?
- python - 无法在烧瓶中呈现 HTML 文件