首页 > 解决方案 > 如何使用 Python 处理大数据中的空值

问题描述

我有大约 1500 列(特征)和 900 行数据的数据。我正在使用它来删除平均值小于 80% 的值

df1 = df.columns[df.isnull().mean() < .8]

但是,我剩余的数据集仍然包含包含大约 6000 个 Null 值的列。删除空值的最佳方法是什么?请指导。在如此大量的空值中估算值是否有用?而且我必须以什么阈值删除空值?哪个最好?例如,我有 100 250 1500 2000 3500 4000 6000 个缺失值的特征。需要你的指导,请帮忙

标签: pythonimputationisnulldata-preprocessing

解决方案


尝试这个

for col in df.columns:
    df = df[~pd.isnull(df[col])]

推荐阅读