首页 > 技术文章 > 关于交叉验证

waterr 2021-02-20 22:07 原文

在机器学习中,我们一般会把数据集分为训练集和测试集,训练集用于创建模型,测试集用于评估模型的好坏。如果效果不好,我们就进行调参,继续在测试集上进行测试。实际上这有可能使得模型对于测试集过拟合,进而在面对新的未知数据时预测效果不好。

为了尽量避免针对测试集和训练集过拟合的问题,一般在数据量少的情况下,我们会把数据集分训练集和测试集,并且将训练集分为几份,每次取其中的一份作为验证集,交叉循环得到多个模型,用这多个模型的平均结果作为最终模型,进行测试集的评估。

 

推荐阅读