首页 > 解决方案 > 如何在强化学习中创造一个关于这个问题的环境?

问题描述

我想使用强化学习解决一个问题,更具体地说,深度 Q 学习 (DQN)。如图所示,例如,有一个 3*3 的网格,网格上有 4 个元素。它们的初始状态是随机的,目标是最小化所有元素的外部矩形。例如,图片1的外部矩形是9,图片2的外部矩形是4(我想要的)。 https://github.com/xinlnix/images/blob/main/img/20210425231512.png


在我看来,环境如下: 奖励:所有元素的外部矩形。动作:将每个元素向左、向右、向上、向下移动 state:网格的位置。


但我在这里有一个问题。当结果达到最佳结果时,如何停止执行元素的移动,如图2所示。

概括地说,网格可能很大,网格上的元素数量更多。我是 RL 的新生儿,感谢您的建议。

标签: reinforcement-learning

解决方案


推荐阅读