python - 什么时候在 Tensorflow Gradient Tape 中应用 Momentum?
问题描述
我一直在玩 tensorflow 中的自动渐变,我有一个问题。如果我们正在更新优化器,比如 ADAM,那么动量算法何时应用于梯度?当我们调用tape.gradient(loss,model.trainable_variables) 或调用model.optimizer.apply_gradients(zip(dtf_network,model.trainable_variables)) 时是否应用它?
谢谢!
解决方案
tape.gradient
直接计算梯度而不参考优化器。由于动量是优化器的一部分,磁带不包括它。AFAIK 动量通常是通过在存储运行平均值的优化器中添加额外变量来实现的。所有这些都在optimizer.apply_gradients
.
推荐阅读
- c# - ML.NET:输入列“AnswerFeaturized_CharExtractor”的架构不匹配:预期的单个或已知大小的单个向量,得到向量
- laravel - Laravel 5.7:验证失败后重定向过多
- twitter-bootstrap - 打开时如何更改下拉列表项目符号图标?
- javascript - 如何在对象数组中搜索给定数组的元素并从中获取一些值?
- javascript - 如何在本机反应中基于复选框true false隐藏和显示输入字段
- java - java swing中如何一个一个读取多个文件并显示在同一个文本区域?
- autohotkey - 仅当特定窗口处于活动状态时如何激活脚本?
- python - 使图像弯曲
- c++ - 计算 std::vector 中的设置值
- java - 如何使用休眠读取地理值?