python - 具有实际环境而不是 python 类环境的 TensorFlow 代理
问题描述
根据关于强化学习的维基百科
有两个元素使强化学习变得强大:使用样本来优化性能和使用函数逼近来处理大型环境。由于这两个关键组件,强化学习可以在以下情况下在大型环境中使用:
- 环境模型是已知的,但分析解决方案不可用。
- 仅给出环境的仿真模型(基于仿真的优化主题)。
- 收集有关环境的信息的唯一方法是与之交互。
在我的情况下,环境属于第三种选择,唯一的方法是与之交互以获得经验。为此,我有一个烧瓶 restful API,环境调用 API 点以符合主要的 RL 框架功能重置和步骤。
由于它不是要传递给 TF Environment Wrapper 的 python 类,因此在我的解决方案中使用 TF 代理的其他方法是什么。也许是一个与消息总线通信以查看 API 是否被命中的环境类?
为了进一步解释,如果我根据TF Environment文档创建了一个 python 类,内部实现了 Step 和 Reset 来检查 API 是否被命中,这会是一个明智的解决方案吗?
更新1:我仍然无法弄清楚这一切,因为它有复杂的特殊从外部环境重置环境,但目前我正在研究一个代理类,作为python类和flask API之间的简单消息传递技术
解决方案
推荐阅读
- mysql - 数据库和MYSQL
- python - 如何重命名所有文件以包含目录名称?
- java - 事件处理程序 onComplete 控制器不会执行 task.isSuccessful()
- python-3.x - /register/处的操作错误
- javascript - 单击按钮时,数据库将更新
- python-3.x - 无法提取 PyInstaller .exe 文件插件(使用 Keras 和 ONNX 转换器库和模块)
- python - 为什么我得到 IndexError: list assignment index out of range
- react-native - 从平面列表中选择一项
- r - 将fasta文件读入R中MolecularEntropy函数的矩阵或向量
- c - ptrace 系统调用返回 -1 且 errno=0