python - 具有实际环境而不是 python 类环境的 TensorFlow 代理

根据关于强化学习的维基百科

有两个元素使强化学习变得强大：使用样本来优化性能和使用函数逼近来处理大型环境。由于这两个关键组件，强化学习可以在以下情况下在大型环境中使用：

环境模型是已知的，但分析解决方案不可用。

仅给出环境的仿真模型（基于仿真的优化主题）。

收集有关环境的信息的唯一方法是与之交互。

在我的情况下，环境属于第三种选择，唯一的方法是与之交互以获得经验。为此，我有一个烧瓶 restful API，环境调用 API 点以符合主要的 RL 框架功能重置和步骤。

由于它不是要传递给 TF Environment Wrapper 的 python 类，因此在我的解决方案中使用 TF 代理的其他方法是什么。也许是一个与消息总线通信以查看 API 是否被命中的环境类？

为了进一步解释，如果我根据TF Environment文档创建了一个 python 类，内部实现了 Step 和 Reset 来检查 API 是否被命中，这会是一个明智的解决方案吗？

更新1：我仍然无法弄清楚这一切，因为它有复杂的特殊从外部环境重置环境，但目前我正在研究一个代理类，作为python类和flask API之间的简单消息传递技术

标签： pythontensorflowtensorflow2.0reinforcement-learningtensorflow-agents