首页 > 解决方案 > Pytorch-为什么“累积”.gradient的默认模式?

问题描述

为什么作者不让它覆盖渐变?有什么特别的理由让它保持积累吗?

标签: pytorch

解决方案


因为如果您在前向传递中使用相同的网络两次(或相同的权重),它应该累积而不是覆盖。另外,由于 pytorch 计算图是由运行定义的,所以累积是有意义的。见https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/9


推荐阅读