首页 > 解决方案 > 如何使用 Pycaret 找到最佳阈值

问题描述

我正在使用 pycaret 库并从中创建了一个 Catboost 模型

在此处输入图像描述

该模型的 AUC 得分很高,但 Recall 和 F1 很差,这意味着 0.5 的正常阈值并不理想,但有一个阈值可以为这两个指标提供良好的分数。

有没有办法找到这个阈值?我不太确定如何工作,因为我正在尝试 Pycaret

标签: pythonmachine-learningpycaret

解决方案


你指的是哪个门槛?对于功能选择?您可以尝试多种调整,以便与上图中的基线相比改进模型。

  1. compare_models() - 也许还有其他算法,比 catboost 执行得更好
  2. 特征选择 - RFE 或随机森林(在这里您可以使用 PyCaret 中的参数 feature_selection 并尝试使用阈值。Boruta 算法也应该检查)。
  3. 特征工程
  4. 折叠=5
  5. 尝试多次拆分训练/测试(80/20、70/30 等)
  6. 在 PyCaret 设置中,应该仔细检查数字和分类特征。需要时需要更改格式。

尝试比较


推荐阅读