deep-learning - 如何向人工智能教授游戏规则?
问题描述
我正在使用 DQN 制作像 alpha GO 一样的 AI。但是我在教游戏规则方面遇到了麻烦。AI在第一时间不知道“不能把石头放在已经被占用的地方”的规则。每当 AI 违反该规则时,我都会尝试给予负奖励。但看起来人工智能并没有学习规则。我认为教学规则只是浪费时间。请与我分享你的想法。
解决方案
您可以做的是,当您处于“s”状态并且您有例如 8 个可能的操作(因此您的网络有 8 个输出)但操作 1 2 3 无法执行时,您可以使用目标 Q 值最小化损失对于状态“s”中的所有无效操作,手动设置为 0。
而对于训练步骤,当最大Q值对应的动作无效时,只需选择一个随机动作,不要忘记将该动作的目标Q值设置为0。
推荐阅读
- android - Android 实时数据未更新 OnResume 状态
- kubernetes - 如何使用 Java Api 从 Kubernetes 检索 pod 内存和 cpu 使用情况
- java - 索引出界。你应该如何将 resultSet 中的数据存储到 ArrayList 中?
- python - Python Tkinter 窗口标题
- sql - 查询以针对一列的每个不同值返回在所有行中具有相同值的行值
- python - 在熊猫数据框中,\\ N 是随机存在的,我想将其删除
- ssl - 在基础设施的任何地方禁用低于版本 TLSv1.2 的 TLS
- python - 从 Canny 图像中查找矩形对象
- node.js - twilio cli 未读取节点中的 .env 文件
- python - 使用 hunspell.spell("my_word") 时出现“LookupError”