首页 > 解决方案 > 具有实际环境而不是 python 类环境的 TensorFlow 代理

问题描述

根据关于强化学习的维基百科

有两个元素使强化学习变得强大:使用样本来优化性能和使用函数逼近来处理大型环境。由于这两个关键组件,强化学习可以在以下情况下在大型环境中使用:

  • 环境模型是已知的,但分析解决方案不可用。
  • 仅给出环境的仿真模型(基于仿真的优化主题)。
  • 收集有关环境的信息的唯一方法是与之交互。

在我的情况下,环境属于第三种选择,唯一的方法是与之交互以获得经验。为此,我有一个烧瓶 restful API,环境调用 API 点以符合主要的 RL 框架功能重置和步骤。

由于它不是要传递给 TF Environment Wrapper 的 python 类,因此在我的解决方案中使用 TF 代理的其他方法是什么。也许是一个与消息总线通信以查看 API 是否被命中的环境类?

为了进一步解释,如果我根据TF Environment文档创建了一个 python 类,内部实现了 Step 和 Reset 来检查 API 是否被命中,这会是一个明智的解决方案吗?

更新1:我仍然无法弄清楚这一切,因为它有复杂的特殊从外部环境重置环境,但目前我正在研究一个代理类,作为python类和flask API之间的简单消息传递技术

标签: pythontensorflowtensorflow2.0reinforcement-learningtensorflow-agents

解决方案


推荐阅读