algorithm - 整合孤立森林中的缺失值
问题描述
当前的 XGBoost 算法能够通过最小化损失(source)在训练期间选择最佳方向来处理缺失值。在我们的机构内,当我们处理稀疏的表格数据时,此功能非常有价值。
我们的下一个项目是检测相似数据集中的异常值;具有相对大量缺失数据的巨大表格数据集。我们遇到的有趣技术之一是隔离森林。现在,我们想探索将 XGBoost 等用于缺失值的功能集成到当前隔离森林中的可能性。随后,我有两个问题;
1] 这种将缺失数据处理集成到隔离森林中的想法在技术上是否可行,最重要的是,是否有意义?
2] 在这些情况下,其他缺失数据处理技术(例如先验插补)甚至其他异常值检测算法会更好吗?
请让我听听您的建议,这将非常有价值!先感谢您。
解决方案
推荐阅读
- multithreading - 如何将非静态数据发送到 Rust 中的线程,在这个例子中是否需要它?
- javascript - 出现错误呈现新页面后无法加载日期字段
- kubernetes - 从 Kubernetes 中的快照创建 Google 永久性磁盘
- html - 单击按钮将数据传递给 Servlet
- angular - 我如何在 angular4/5 中安装完美的滚动条
- javascript - 从 JSzip 对象文件夹中读取所有文件并迭代
- r - 将列随机分配给R中的其他列
- javascript - ReactRouter v4 提示 - 覆盖默认警报
- linux - 查找单个目录中行数最多的文件
- jquery - ajaxSetup 不起作用,它没有添加默认变量字段