首页 > 解决方案 > 如果我们两次使用相同的数据(初始参数的两次随机化),我们的算法是否有可能收敛到不同的局部最小值?

问题描述

假设我们使用相同的数据两次使用梯度下降训练神经网络(初始参数的两次随机化)。我们的算法有可能收敛到不同的局部最小值吗?

标签: neural-networkgradient-descent

解决方案


是的。顾名思义,梯度下降就损失函数而言是“走下坡路”。但简单地下坡并不意味着你会到达最低的山谷。

考虑这个有两个局部最小值的例子。

具有两个局部最小值的损失函数

如果随机初始化的参数导致初始输出接近A,在 的左侧b,那么梯度下降将朝着 下降A。但是如果初始参数导致输出在右边b,更接近C,那么下坡方向是朝向C

梯度下降只会走下坡路。那是哪种方式,以及您最终可能会在哪里结束,很大程度上取决于您从哪里开始。


推荐阅读