首页 > 解决方案 > 当丢失 60% 的数据时,您如何处理丢失的数据?

问题描述

我的数据有很多缺失值,我必须预测这些值。一种方法是取这些值的平均值。但我想听听另一种观点。经验丰富的数据科学家如何解决此类问题?

标签: data-sciencedata-science-experience

解决方案


最难的方法是对数据集进行估算,并且不要偏离事实太远。下面是一个验证您在这方面做得如何的测试。如果其他参数提供了足够有证据的洞察力来估算缺失数据的精确度......它应该能够使用现有数据来做到这一点。

因此,如果 60% 的列缺失,则获取该列存在的行观察值。

接下来,随机选择删除这个子集数据的 60%。现在运行您选择的插补方法。

比较估算数据集与真实数据集的相似性。确定它们是否足够接近您,然后针对完整数据集运行它。如果您需要保护自己,至少这种方法可以让您站稳脚跟。

打好仗。


推荐阅读