machine-learning - RL:使用 On-Policy 和 Off-Policy 进行自我游戏
问题描述
我尝试用 PPO 实现自我游戏。假设我们有一个有 2 个代理的游戏。我们控制每一方的一名玩家,并在每一步后获得观察和奖励等信息。据我所知,您可以使用左右玩家的信息来生成训练数据并优化模型。但这仅适用于非政策,不是吗?因为使用on-policy(例如PPO),您希望训练数据由当前网络版本生成,而在self-play期间通常不是这种情况?
谢谢!
解决方案
没错,这也是为什么你只能将体验重放(Replay BUffers)用于 Q-learning 等非策略方法的原因。使用当前策略未生成的样本步骤违反了正在反向传播的梯度背后的数学假设。
推荐阅读
- javascript - 反应待办事项列表。addItem 功能不起作用
- sql - SQL:识别列中是否有多个(不重复)
- c# - 新计算机和新的 git clone 给出 500 多个错误,不知道我错过了什么
- excel - 如何将 Excel 数据保存在 Mac 上的其他文件夹中?
- javascript - 我想使用 react 和 next.js 从一个对象映射我的数组,它是一个使用钩子的函数组件
- java - 加入流中Java对象中两个列表的列表
- ios - 在 iOS 中加载多个图像时,使用 send_data 加载的图像会损坏一半
- powerpoint - 如何在 PowerPoint 和 office.js 中使用自定义 xml?
- python - U net 多类分割图像输入数据集错误
- react-native - 无法从 Metro 捆绑器获取状态