algorithm - PPO的梯度削波真的能防止r(θ)超过1±epsilon吗?
问题描述
在 PPO 中更新策略时,裁剪部分是否将权重停止在 r(θ) 恰好为 1±epsilon 的确切值处,或者是否允许超过该值,然后通过将梯度设置为来阻止它进一步发展零?哪一个是实际发生的事情?
解决方案
或者它是否允许超过该值,然后通过将梯度设置为零来阻止它进一步发展?
这正是它的作用。PPO 中的裁剪项不能阻止 r(θ) 超过 1±ε,但是超过它之后,梯度将为零,并且 r(θ) 将被反向传播有效地忽略。
但是请记住,这一切都是与其他时间步长的经验同时发生的;这意味着 r(θ) 在时间 t 有可能移回 1±ε 区域,此时它将再次开始更新。
最终结果是|1-r(θ)| 在所有时间步长上将大致(但不完全)以 ε 为界。
推荐阅读
- angular - 当我们使用相对路径而不是绝对路径时,Angular 8 中的问题(从 Angular 4 升级后)
- java - 执行 Mojo 失败,出现 `java.lang.NoSuchMethodError` org.codehaus.plexus.util.DirectoryScanner.setFilenameComparator
- java - org.glassfish.jersey.internal.util eclipse Maven Webapp 项目中缺少 Base64 类
- angular - 如何在不使用任何库的情况下以角度延迟加载图像?
- c++ - c++ *& 和 null 验证
- java - (JNI) 使用 GetMethodID 获取 Java 方法的内存地址
- installation - 在 Windows 容器中安装 Microsft Edge
- oracle - 如何通过 Oracle 表知道应用程序名称
- reinforcement-learning - 在任意初始状态下启动 OpenAI gym
- c# - 我的精灵只有在靠近玩家时才会翻转