首页 > 解决方案 > 次优的早期停止可以防止机器学习中的过度拟合?

问题描述

我一直在使用 xgboost 的提前停止功能来处理各种问题,主要是分类。但是在处理不同领域的几个数据集时,我有以下观察结果

因此问题是:训练轮数是否应该比最佳点更早停止(训练和测试(eval)之间存在非常高的发散误差,尽管验证误差较低)?

请假设已尽一切努力正确拆分数据集以进行训练、测试、验证等。

谢谢。

标签: machine-learningmodelingcross-validationxgboost

解决方案


如果您提前停止,您的参数将无法很好地拟合您的训练数据。另一方面,如果您过度拟合,您将无法通过验证集。您可以做的(完美的经验法则)是在验证错误最小的参数处停止。这是假设训练误差总是随着迭代次数的增加而下降,但验证集的误差会下降然后上升。对于项目,这应该足够好。而对于更高级的应用程序,您可能希望搜索交叉验证等验证技术。但想法是相似的。


推荐阅读