首页 > 解决方案 > OpenAI-Gym 中的自定义环境

问题描述

我想在 Python 中尝试强化学习。但我想用我自己的状态和奖励创建一个自定义环境。

可能我想在这个中使用时间序列数据(虽然不像股票)。我希望我的系统在给定环境的情况下根据时间学习行为。

所以我首先要创建一个自定义环境,有人可以帮助我吗?

标签: development-environmentreinforcement-learningopenai-gym

解决方案


OpenAI 健身房环境注册流程可在此处的健身房文档中找到。

您还可以查看示例自定义环境和stackoverflow 问题以获取更多信息。

可能我想在这个中使用时间序列数据(虽然不像股票)。我希望我的系统在给定环境的情况下根据时间学习行为。

如果您希望代理学习 wrt 时间,则将时间步长作为变量包含在您的状态中。然后,您的代理将能够区分不同时间步长的两种不同状态。


推荐阅读