neural-network - 如果我们两次使用相同的数据（初始参数的两次随机化），我们的算法是否有可能收敛到不同的局部最小值？

假设我们使用相同的数据两次使用梯度下降训练神经网络（初始参数的两次随机化）。我们的算法有可能收敛到不同的局部最小值吗？

标签： neural-networkgradient-descent

是的。顾名思义，梯度下降就损失函数而言是“走下坡路”。但简单地下坡并不意味着你会到达最低的山谷。

考虑这个有两个局部最小值的例子。

如果随机初始化的参数导致初始输出接近A，在的左侧b，那么梯度下降将朝着下降A。但是如果初始参数导致输出在右边b，更接近C，那么下坡方向是朝向C。

梯度下降只会走下坡路。那是哪种方式，以及您最终可能会在哪里结束，很大程度上取决于您从哪里开始。