python - 如何使用 Python 处理大数据中的空值
问题描述
我有大约 1500 列(特征)和 900 行数据的数据。我正在使用它来删除平均值小于 80% 的值
df1 = df.columns[df.isnull().mean() < .8]
但是,我剩余的数据集仍然包含包含大约 6000 个 Null 值的列。删除空值的最佳方法是什么?请指导。在如此大量的空值中估算值是否有用?而且我必须以什么阈值删除空值?哪个最好?例如,我有 100 250 1500 2000 3500 4000 6000 个缺失值的特征。需要你的指导,请帮忙
解决方案
尝试这个
for col in df.columns:
df = df[~pd.isnull(df[col])]
推荐阅读
- java - 如何使用spring将数据从mysql检索到jsp
- hbase - Hbase按插入顺序扫描多个版本
- firebase - 在 Firebase 数据库上为各种指标创建仪表板
- python - python:ModuleNotFoundError:没有名为“加密”的模块
- ruby - 使用 Stripe 找不到没有 ID 的产品
- ionic-framework - 在 iOS 中使用 ionic 3 打开 facebook 页面和应用商店
- sql - 在选择中显示临时表中的字段
- c# - 如何从 C# 中的 SQLDataReader 以更快的方式获取记录
- angularjs - ngIf 用于遍历两个不同的数组
- windows - 无法使用“net use”命令映射文件夹