data-science - 当丢失 60% 的数据时,您如何处理丢失的数据?
问题描述
我的数据有很多缺失值,我必须预测这些值。一种方法是取这些值的平均值。但我想听听另一种观点。经验丰富的数据科学家如何解决此类问题?
解决方案
最难的方法是对数据集进行估算,并且不要偏离事实太远。下面是一个验证您在这方面做得如何的测试。如果其他参数提供了足够有证据的洞察力来估算缺失数据的精确度......它应该能够使用现有数据来做到这一点。
因此,如果 60% 的列缺失,则获取该列存在的行观察值。
接下来,随机选择删除这个子集数据的 60%。现在运行您选择的插补方法。
比较估算数据集与真实数据集的相似性。确定它们是否足够接近您,然后针对完整数据集运行它。如果您需要保护自己,至少这种方法可以让您站稳脚跟。
打好仗。
推荐阅读
- c# - 地图列表
列出 带有 .net 核心的自动映射器 - python - 附加结果并显示来自哪个组合?
- winforms - 如何动态获取多组 IEnumerable
- python-3.x - cv2.filter2D:如果内核大小太大,则没有结果
- php - BadMethodCallException 方法 App\Http\Controllers\TaskController::destory 不存在
- python - 当我在数据库中有确切的表结构时,为什么会出现此错误?
- docker - 如何在 Ubuntu Docker 中安装 s3fs
- html - 如何在不使用表格格式化的情况下呈现获取的数据?
- python - 如何区分两种动态类型?
- javascript - 转换js对象