首页 > 解决方案 > 整合孤立森林中的缺失值

问题描述

当前的 XGBoost 算法能够通过最小化损失(source)在训练期间选择最佳方向来处理缺失值。在我们的机构内,当我们处理稀疏的表格数据时,此功能非常有价值。

我们的下一个项目是检测相似数据集中的异常值;具有相对大量缺失数据的巨大表格数据集。我们遇到的有趣技术之一是隔离森林。现在,我们想探索将 XGBoost 等用于缺失值的功能集成到当前隔离森林中的可能性。随后,我有两个问题;

1] 这种将缺失数据处理集成到隔离森林中的想法在技术上是否可行,最重要的是,是否有意义?

2] 在这些情况下,其他缺失数据处理技术(例如先验插补)甚至其他异常值检测算法会更好吗?

请让我听听您的建议,这将非常有价值!先感谢您。

标签: algorithmtreexgboostoutliersisolation

解决方案


推荐阅读