首页 > 解决方案 > 我们是否期望基线(所有特征)和选定特征对决策树执行相同的操作?

问题描述

我正在使用 sklearn 的决策树来解决二元类问题。然而事实证明,在优化所有内容(优化超参数和使用最佳数量的所选特征)之后,我能做的最好的事情就是获得与基线一样好的准确度和 f1 分数(没有选择特征并使用所有特征)。

当然现在它不那么混乱(更少的功能),并且代码运行得更快。但这是预期的吗?还是特征选择的重点是提高分类器的性能指标?

标签: pythonmachine-learningscikit-learndecision-tree

解决方案


这是正确的。特征选择主要会给您带来性能优势,并且如果相关,可能有助于防止过度拟合。它并不真正应该改善训练指标,因为您实际上是在尝试用更少的信息来解决相同的问题。

但这并不意味着你不应该这样做。如果您可以使用更少的功能实现相同的性能 - 使用更少的功能:)


推荐阅读