python - 如何将 sumo 的流量数据用作要在 python 中使用的 RL 环境？

我正在尝试对交通信号控制使用强化学习。我注意到我必须首先设置我的环境。问题是我有地图、交叉路口的车辆和红绿灯设置，我需要训练我的代理根据这个环境采取行动，我不知道如何使用这些交通数据在 python 中定义我的 RL 环境. 如果有人可以帮助我，我真的很感激。谢谢你。

标签： pythonreinforcement-learningsumo

如果您已经收集了数据，则不需要环境。您将直接使用轨迹——状态、动作和奖励的序列。

对于 RL，你需要一个奖励信号，你有这个吗？

如果你问如何创建一个模拟环境，有很多方法可以做到这一点，但它会有些涉及。这是我和我实验室的其他人正在开发的一个存储库，它是一个在 python 中开发代理模拟（包括 RL 模拟环境）的框架，虽然它仍处于起步阶段（对不起，无耻的自我推销） - 我们将欢迎认真的贡献！

为了完整起见，还有其他框架存在，最值得注意的是gym。