首页 > 解决方案 > 在 OpenAI Gym 中定义 MDP 的最简单方法是什么?

问题描述

我正在寻找基于示例的答案,无论是直接在答案中的代码还是指向教程的链接,但不仅仅是纯文本答案。

我很好奇——为了强化学习解决方案,如何在 OpenAI Gym 中定义任意马尔可夫决策过程?我在工作中经常遇到的问题是旅行推销员、车辆路线和库存优化。通常,我使用遗传算法和贝叶斯优化等优化技术来找到接近最优的解决方案。但是,在这个问题中,我希望看到一种实用/可行的强化学习方法来解决这些问题。据我了解,OpenAI Gym 是为 RL 定义代理/环境的最简单工具。(如果这不是真的,请使用您喜欢的替代方法以相同的详细程度回答这个问题。)

标签: pythonreinforcement-learningopenai-gymmarkov-decision-process

解决方案


推荐阅读