algorithm - PPO的梯度削波真的能防止r(θ)超过1±epsilon吗？

在 PPO 中更新策略时，裁剪部分是否将权重停止在 r(θ) 恰好为 1±epsilon 的确切值处，或者是否允许超过该值，然后通过将梯度设置为来阻止它进一步发展零？哪一个是实际发生的事情？

标签： algorithmmachine-learningartificial-intelligencereinforcement-learning

或者它是否允许超过该值，然后通过将梯度设置为零来阻止它进一步发展？

这正是它的作用。PPO 中的裁剪项不能阻止 r(θ) 超过 1±ε，但是超过它之后，梯度将为零，并且 r(θ) 将被反向传播有效地忽略。

但是请记住，这一切都是与其他时间步长的经验同时发生的；这意味着 r(θ) 在时间 t 有可能移回 1±ε 区域，此时它将再次开始更新。

最终结果是|1-r(θ)| 在所有时间步长上将大致（但不完全）以 ε 为界。