python - 如何使用 Pycaret 找到最佳阈值
问题描述
我正在使用 pycaret 库并从中创建了一个 Catboost 模型
该模型的 AUC 得分很高,但 Recall 和 F1 很差,这意味着 0.5 的正常阈值并不理想,但有一个阈值可以为这两个指标提供良好的分数。
有没有办法找到这个阈值?我不太确定如何工作,因为我正在尝试 Pycaret
解决方案
你指的是哪个门槛?对于功能选择?您可以尝试多种调整,以便与上图中的基线相比改进模型。
- compare_models() - 也许还有其他算法,比 catboost 执行得更好
- 特征选择 - RFE 或随机森林(在这里您可以使用 PyCaret 中的参数 feature_selection 并尝试使用阈值。Boruta 算法也应该检查)。
- 特征工程
- 折叠=5
- 尝试多次拆分训练/测试(80/20、70/30 等)
- 在 PyCaret 设置中,应该仔细检查数字和分类特征。需要时需要更改格式。
尝试比较
推荐阅读
- email - Google Cloud 上的 SMTP 电子邮件服务器托管 - 套接字错误 10060
- sharepoint - 如何上传 SharePoint 文档的自定义缩略图
- python - 如何在第二个显示器/显示器上打开 Tkinter GUI?(视窗)
- sql - 关于两个日期之间值总和的 SQL 查询
- reactjs - react-navigation 5和Formik处理提交不起作用
- c++ - 复制构造函数没有被调用
- c++ - 运行使用自定义 gcc 编译的应用程序时,动态链接器直接调用分段错误
- r - R中日期类对象中的字符数
- python - 使用 opencv 进行透视变形并使用 tkinter 显示它
- python - 尝试使用 <= 和 >= 日期明天 0100-2400 if 语句过滤 api 请求