pytorch - Pytorch-为什么“累积”.gradient的默认模式？

首页 > 解决方案 > Pytorch-为什么“累积”.gradient的默认模式？

问题描述

为什么作者不让它覆盖渐变？有什么特别的理由让它保持积累吗？

标签： pytorch

解决方案

因为如果您在前向传递中使用相同的网络两次（或相同的权重），它应该累积而不是覆盖。另外，由于 pytorch 计算图是由运行定义的，所以累积是有意义的。见https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/9

推荐阅读