python - 在 ray.tune 中保存剧集奖励
问题描述
我正在使用 rllib/ray 在多代理环境中使用 PPO 算法训练几个代理。我正在使用ray.tune()
命令来训练代理,然后从~/ray_results
. 该数据包含代理在每个训练集中选择的动作,但我还需要相应的代理奖励。我查看了文档,但似乎没有允许保存剧集奖励的配置参数。有没有人有解决方法?
解决方案
您需要将这些值添加到 info dict 中,然后它将被 ray tune 收集。
推荐阅读
- html - 生产 React 网站无法正确呈现
- spring-boot - thymeleaf 2.5.6 版本中使用变量表达式的方法是什么
- authentication - ADFS 作为某些 IDP 的代理
- reactjs - 我的反应网站有问题。我想在点击特定产品时弹出描述页面。但我的改变反映在所有的卡片上
- flutter - 颤振冻结基类
- windows - 如何在 Windows Subsystem for Android(WSA) 环境下将文件添加到 /sdcard/Android/obb 这个文件夹中?
- python - 如何从 JSON 文件中提取单个键值?
- sqlite - “ __conform__() 不是有效的 Streamlit 命令。”
- c++ - 使用元组和自定义排序功能从集合中删除元组
- html - 如何在html中正确缩进表格?