machine-learning - RL：使用 On-Policy 和 Off-Policy 进行自我游戏

问题描述

我尝试用 PPO 实现自我游戏。假设我们有一个有 2 个代理的游戏。我们控制每一方的一名玩家，并在每一步后获得观察和奖励等信息。据我所知，您可以使用左右玩家的信息来生成训练数据并优化模型。但这仅适用于非政策，不是吗？因为使用on-policy（例如PPO），您希望训练数据由当前网络版本生成，而在self-play期间通常不是这种情况？

谢谢！

标签： machine-learningreinforcement-learning

没错，这也是为什么你只能将体验重放（Replay BUffers）用于 Q-learning 等非策略方法的原因。使用当前策略未生成的样本步骤违反了正在反向传播的梯度背后的数学假设。

machine-learning - RL：使用 On-Policy 和 Off-Policy 进行自我游戏

问题描述

解决方案

推荐阅读