python - 在 OpenAI Gym 中定义 MDP 的最简单方法是什么?
问题描述
我正在寻找基于示例的答案,无论是直接在答案中的代码还是指向教程的链接,但不仅仅是纯文本答案。
我很好奇——为了强化学习解决方案,如何在 OpenAI Gym 中定义任意马尔可夫决策过程?我在工作中经常遇到的问题是旅行推销员、车辆路线和库存优化。通常,我使用遗传算法和贝叶斯优化等优化技术来找到接近最优的解决方案。但是,在这个问题中,我希望看到一种实用/可行的强化学习方法来解决这些问题。据我了解,OpenAI Gym 是为 RL 定义代理/环境的最简单工具。(如果这不是真的,请使用您喜欢的替代方法以相同的详细程度回答这个问题。)
解决方案
推荐阅读
- apache - XAMPP 虚拟主机无法在 Windows 10 上运行
- jsf - 无法更改页面 p:dataTable
- kubernetes - 对 Pod 中同一应用的多个容器进行负载均衡
- python - 如何在 python 3 及更高版本中永久删除文件?
- c - 如何避免变量自动分配到我的指针指向的内存单元的情况?
- python - 使用并行 NetCDF 保存分布式 3D 复数数组
- xml - 如何在字符串中写出好看的段落。android studio项目中的xml文件?
- postgresql - 函数的并发使用
- java - GSON 未将新字段保存到文件
- javascript - 无法导入然后在验收测试 - ember.js