python - 多智能体强化学习环境公共交通问题

对于我的硕士论文，我想将多智能体 RL 应用于总线控制问题。这个想法是公共汽车在给定的线路上运行，但没有时间表。公共汽车应该有公共汽车站，乘客随着时间的推移而聚集并接他们，公共汽车之间的间隔越长，在车站等候的乘客就越多（平均而言，这是一个随机过程）。我还想实施一些公共汽车必须等待绿灯的十字路口。

我还不确定我的奖励功能会是什么样子，但这将类似于保持公共汽车之间的间隔尽可能有规律或最大限度地减少乘客的总旅行时间。

问题的代理将是公共汽车，但也是红绿灯。红绿灯可以选择何时为哪条道路亮绿灯：除了公共汽车，他们还有其他需要处理的需求。公共汽车可以选择加速、减速、在停靠站等待更长时间或以正常速度继续行驶。

为了能够将这个问题放在 RL 框架中，我需要一个环境和合适的 RL 算法。理想情况下，我将拥有一个灵活的仿真环境来重新创建我的案例研究总线并将其连接到现成的 RL 算法。但是，到目前为止我还没有找到这个。这意味着我可能必须自己将模拟环境连接到 OpenAI 健身房之类的东西。

有没有人建议哪种模拟环境可能适合？如果有可能将其与现成的 RL 算法联系起来？

我觉得用 Python 编程最舒服，但其他语言也是一种选择（但这意味着我需要付出相当大的额外努力）。

到目前为止，我发现了以下可能适合的模拟环境：

对于 RL 算法，选项似乎是：

我很想听听一些关于哪些环境可能最适合我的问题的建议和建议！

标签： pythonreinforcement-learningopenai-gymagent-based-modelingmulti-agent