首页 > 解决方案 > 张量运算的导数

问题描述

我正在读一本关于深度学习的书,我对作者提到的一个想法有点困惑。

我不明白为什么我们从权重中减去 -step * gradient (f) (W0) 而不仅仅是 -step,因为 -step * gradient (f) (W0) 表示损失,而 -step 是参数(即x 值,即重量的微小变化)

标签: pythonmachine-learningdeep-learning

解决方案


梯度告诉您要移动的方向,步长将有助于控制您移动的幅度,以便您的序列收敛。

我们不能只是减去step。回想一下,这step只是一个标量数。W0是张量。我们不能用标量数减去张量。梯度是一个与 和 相同大小的张量,W0这将使减法定义良好。

阅读梯度下降可能有助于您的理解。


推荐阅读