machine-learning - 数据挖掘中的异常值处理
问题描述
我在身体质量指数列中有一个离其他数据非常远的异常值。第二个最大值是 38.1,而异常值是 294。它实际上是 29.4,并且在收集数据时发生了错误。我不想删除该行,因为我的数据数量有限。谁能说出解决这个问题的最佳技术方法?将值视为缺失并应用诸如期望最大化插补或贝叶斯多重插补之类的方法是一种好方法吗?请帮我解决问题。谢谢
解决方案
检测不良数据,如有必要,将其替换为您喜欢的任何数据插补技术。
当然,如果您可以将不良数据留在其中,并设计出足够强大的整体方法来处理此问题,那会更好。
推荐阅读
- azure-ad-b2c - 如何区分从客户端凭据流和授权授予流生成的令牌
- java - 渲染期间定义的属性和传递变量时出错
- sql - 清理就业状态日期之间的行
- django - Django:表单集和不必要的输入字段
- android - React Native Webview - 未定义不是函数
- java - 当我运行 Codenameone 程序时,模拟器中没有显示按钮
- javascript - Foundation 的 Magellan 无法使用固定的顶栏
- c# - Visual Studio 缺少数据库连接向导中的 Microsoft.Ace.OLEDB.16.0
- python - 如何应用二进制掩码和 STFT 来生成音频文件?
- php - get_header 和 get_footer 如何在不包含任何外部文件的情况下工作?