首页 > 解决方案 > 数据挖掘中的异常值处理

问题描述

我在身体质量指数列中有一个离其他数据非常远的异常值。第二个最大值是 38.1,而异常值是 294。它实际上是 29.4,并且在收集数据时发生了错误。我不想删除该行,因为我的数据数量有限。谁能说出解决这个问题的最佳技术方法?将值视为缺失并应用诸如期望最大化插补或贝叶斯多重插补之类的方法是一种好方法吗?请帮我解决问题。谢谢

标签: machine-learningdata-miningmissing-dataoutliers

解决方案


检测不良数据,如有必要,将其替换为您喜欢的任何数据插补技术。

当然,如果您可以将不良数据留在其中,并设计出足够强大的整体方法来处理此问题,那会更好。


推荐阅读