machine-learning - 学习率如何影响梯度下降？

当梯度下降定量地表明要减少很多偏差和权重时，学习率在做什么？我是初学者，有人请赐教。

标签： machine-learninggradient-descent

学习率是一个超参数，它控制我们根据损失梯度调整网络权重的程度。该值越低，我们沿着向下的斜坡行驶的速度就越慢。虽然这可能是一个好主意（使用低学习率），以确保我们不会错过任何局部最小值，但这也可能意味着我们将需要很长时间才能收敛——尤其是如果我们陷入困境一个高原地区。

new_weight = existing_weight — learning_rate * 梯度

如果学习率太小，梯度下降可能会很慢

如果学习率快，梯度下降会超过最小值。它可能无法收敛，甚至可能发散