首页 > 解决方案 > 寻找降低机器学习分类误报率的想法

问题描述

有没有办法降低经典欺诈预测问题中的误报率。目前我正在研究经典的欺诈检测。真实标签样本50000份(结果待查)。这些训练标签相当平衡。我选择的逻辑回归模型表现良好,f1 得分超过 90%。现在使用该模型预测新案例的结果是 50/50(欺诈和非欺诈)。有没有办法调整模型,让通过非欺诈案例并惩罚误报率,以便我们检测到更少数量的欺诈案例(可能少于 100 万个中的 200 个),但它们很可能是欺诈。希望清除。

标签: pythonstatisticssvmlogistic-regressionfraud-prevention

解决方案


因此,您希望使模型更频繁地预测“非欺诈”。取决于您使用的型号。如果您希望您可以自由地在逻辑回归模型的输出上设置阈值,仅允许将输出实际上更接近 1 的实例归类为“欺诈”。例如,这可以在 sklearn 中通过使用 predict_log_proba(X) 或 predict_proba(X)(对数概率或概率)访问模型的输出概率来完成。(来源:https ://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression )

如果您的模型应该为“欺诈”输出 1,您可以使用 if 阈值输出(如果输出 > 0.8 则为“欺诈”)。


推荐阅读