首页 > 解决方案 > 如何向人工智能教授游戏规则?

问题描述

我正在使用 DQN 制作像 alpha GO 一样的 AI。但是我在教游戏规则方面遇到了麻烦。AI在第一时间不知道“不能把石头放在已经被占用的地方”的规则。每当 AI 违反该规则时,我都会尝试给予负奖励。但看起来人工智能并没有学习规则。我认为教学规则只是浪费时间。请与我分享你的想法。

标签: deep-learningreinforcement-learningq-learning

解决方案


您可以做的是,当您处于“s”状态并且您有例如 8 个可能的操作(因此您的网络有 8 个输出)但操作 1 2 3 无法执行时,您可以使用目标 Q 值最小化损失对于状态“s”中的所有无效操作,手动设置为 0。

而对于训练步骤,当最大Q值对应的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0。


推荐阅读