首页 > 解决方案 > 数据预处理:选择一种技术来填充数据集中的缺失数据

问题描述

所以我有一个带有以下标题的数据集:

数据集

除 SCHOOL_YEAR 之外的所有属性中都存在缺失值。我如何决定使用哪种技术来填充每个属性的缺失值(在 Python 中)?

目前,我正在使用反向填充(bfill),但我想知道如何确定哪种技术最好,例如用平均值、中值、填充等填充。

标签: pythonbigdatadata-miningdata-preprocessing

解决方案


推荐阅读