python - 我们是否期望基线(所有特征)和选定特征对决策树执行相同的操作?
问题描述
我正在使用 sklearn 的决策树来解决二元类问题。然而事实证明,在优化所有内容(优化超参数和使用最佳数量的所选特征)之后,我能做的最好的事情就是获得与基线一样好的准确度和 f1 分数(没有选择特征并使用所有特征)。
当然现在它不那么混乱(更少的功能),并且代码运行得更快。但这是预期的吗?还是特征选择的重点是提高分类器的性能指标?
解决方案
这是正确的。特征选择主要会给您带来性能优势,并且如果相关,可能有助于防止过度拟合。它并不真正应该改善训练指标,因为您实际上是在尝试用更少的信息来解决相同的问题。
但这并不意味着你不应该这样做。如果您可以使用更少的功能实现相同的性能 - 使用更少的功能:)
推荐阅读
- rust - 我怎样才能拥有一个采用可变引用的属性,该引用会比自身寿命更长?
- c++ - 确定调用线程在哪个 CPU 上运行?
- flutter - 将列表索引数据传递给有状态的小部件以动态加载 PDF 文档
- node.js - 从 NodeJS aws-sdk 成功调用 .createInstance() 后,Amazon Connect 处于“CREATION_FAILED”状态
- php - SQLSTATE[22007] 日期时间格式无效 1366 整数值不正确:列的字段
- php - Laravel 从会话表中的 user_agent 列获取用户浏览器和平台
- java - AWS Java SDK 错误:请求签名“与提供的签名不匹配”检查您的密钥等。但凭证正确
- r - 从 R 中的 JSP 抓取网页
- python - Seaborn lmplot 多元回归问题
- python - 找到非常高的多峰元素,留下其余的低峰