首页 > 解决方案 > 具有多列和数据类型的数据集的异常值处理

问题描述

我有一个数据集,我正在处理近 30k 行和 180 多列。我坚持异常值处理步骤。我正在使用一个函数(如下所述)但是,我无法理解错误:

(""名称'is_numeric_dtype'未定义"")

是否有任何其他更好的方法可用于大型数据集,因为不建议单独处理异常值。

def remove_outlier(df):
    low = .05
    high = .95
    quant_df = df.quantile([low, high])
    for name in list(df.columns):
        if is_numeric_dtype(df.name):
            df = df[(df[name] > quant_df.loc[low, name]) 
               & (df[name] < quant_df.loc[high, name])]
    return df
remove_outlier(data_hvc)

标签: pythonpython-3.x

解决方案


从这个片段中,我没有看到您定义了变量 is_numeric_dtype。这是某种全局变量吗?


推荐阅读