首页 > 解决方案 > 什么时候在 Tensorflow Gradient Tape 中应用 Momentum?

问题描述

我一直在玩 tensorflow 中的自动渐变,我有一个问题。如果我们正在更新优化器,比如 ADAM,那么动量算法何时应用于梯度?当我们调用tape.gradient(loss,model.trainable_variables) 或调用model.optimizer.apply_gradients(zip(dtf_network,model.trainable_variables)) 时是否应用它?

谢谢!

标签: pythontensorflowadam

解决方案


tape.gradient直接计算梯度而不参考优化器。由于动量是优化器的一部分,磁带不包括它。AFAIK 动量通常是通过在存储运行平均值的优化器中添加额外变量来实现的。所有这些都在optimizer.apply_gradients.


推荐阅读