reinforcement-learning - 如何在强化学习中创造一个关于这个问题的环境?
问题描述
我想使用强化学习解决一个问题,更具体地说,深度 Q 学习 (DQN)。如图所示,例如,有一个 3*3 的网格,网格上有 4 个元素。它们的初始状态是随机的,目标是最小化所有元素的外部矩形。例如,图片1的外部矩形是9,图片2的外部矩形是4(我想要的)。 https://github.com/xinlnix/images/blob/main/img/20210425231512.png
在我看来,环境如下: 奖励:所有元素的外部矩形。动作:将每个元素向左、向右、向上、向下移动 state:网格的位置。
但我在这里有一个问题。当结果达到最佳结果时,如何停止执行元素的移动,如图2所示。
概括地说,网格可能很大,网格上的元素数量更多。我是 RL 的新生儿,感谢您的建议。
解决方案
推荐阅读
- amazon-web-services - 如何使用MWS API区分亚马逊上同一卖家的两个不同商店的订单?
- angular - 如何使用Angular6在父组件中添加多个组件
- javascript - JavaScript 数组与对象的性能
- regex - 正则表达式的无效匹配('\pL' 在字符类中不起作用)
- google-places-api - 谷歌地方,不同的 api 密钥得到“你已经超出了这个 API 的每日请求配额”。
- javascript - 无法让我在 React 中的表单正常工作
- ios - 编译错误:找不到标题“ChattoAdditions-Swift.h”
- postgresql - PG ADMIN 在执行选择查询时获取对表的锁定
- java - 是否有官方的“正确”方式在使用 OpenJDK 的 RedHat 系统上定义 JAVA_HOME?
- amazon-web-services - AWS lambda 日志到 cloudWatch,通过控制台 是,通过 api 调用 否