首页 > 解决方案 > 在 ray.tune 中保存剧集奖励

问题描述

我正在使用 rllib/ray 在多代理环境中使用 PPO 算法训练几个代理。我正在使用ray.tune()命令来训练代理,然后从~/ray_results. 该数据包含代理在每个训练集中选择的动作,但我还需要相应的代理奖励。我查看了文档,但似乎没有允许保存剧集奖励的配置参数。有没有人有解决方法?

标签: pythonreinforcement-learningrayrllibray-tune

解决方案


您需要将这些值添加到 info dict 中,然后它将被 ray tune 收集。


推荐阅读