首页 > 解决方案 > 正则化与验证

问题描述

我总是在关于欠拟合/过拟合的论文和文章中看到的是训练误差的下降曲线和测试误差的 U 形曲线,说 U 形曲线底部左侧的区域会欠拟合,而右侧的区域会受到欠拟合容易过拟合。为了找到最佳模型,我们可以测试每个配置(例如更改节点和层数)并比较测试错误值以找到最小点(通常通过交叉验证)。这看起来简单而完美。

我们是否需要正则化器来实现这一点?这就是我不确定我是否很好地理解了这个话题。对我来说,如果我们可以测试不同的模型配置,我们似乎不需要正则化器。正则化器发挥作用的唯一情况是当我们有固定的模型配置(例如固定数量的节点和层)并且不想尝试其他配置时,我们使用正则化器通过强制其他模型参数来限制模型复杂度(例如网络权重)到低值。这种观点对吗?

但如果它是正确的,那么它背后的直觉是什么?首先,当使用正则化器时,我们事先不知道这种网络配置/复杂性是否会将我们带到测试误差曲线的最小值的右侧或左侧。它可能已经欠拟合、过拟合或拟合。抛开数学不谈,为什么将权重强制为较低的值会导致网络更具泛化性和更少的过拟合?这种方法与之前沿着测试损耗曲线移动以找到其最小值的方法有什么相似之处吗?正则化器也在训练时完成它的工作,它不能对测试数据做任何事情。它如何帮助实现最小测试误差?

标签: validationregularized

解决方案


推荐阅读