reinforcement-learning - 如何在强化学习中创造一个关于这个问题的环境？

问题描述

我想使用强化学习解决一个问题，更具体地说，深度 Q 学习 (DQN)。如图所示，例如，有一个 3*3 的网格，网格上有 4 个元素。它们的初始状态是随机的，目标是最小化所有元素的外部矩形。例如，图片1的外部矩形是9，图片2的外部矩形是4（我想要的）。 https://github.com/xinlnix/images/blob/main/img/20210425231512.png

在我看来，环境如下：奖励：所有元素的外部矩形。动作：将每个元素向左、向右、向上、向下移动 state：网格的位置。

但我在这里有一个问题。当结果达到最佳结果时，如何停止执行元素的移动，如图2所示。

概括地说，网格可能很大，网格上的元素数量更多。我是 RL 的新生儿，感谢您的建议。

标签： reinforcement-learning

reinforcement-learning - 如何在强化学习中创造一个关于这个问题的环境？

问题描述

解决方案

推荐阅读