artificial-intelligence - 强化学习、Q 学习以确定最佳施法顺序?
问题描述
如果我有一个法师,他有 20 个法术,每个法术都有不同的作用,有时是直接伤害,有时是禁用,有时是保护等。他与 10 个兽人打架,我想确定一个最佳施法顺序来杀死兽人尽可能快。
Q学习会帮助解决这个问题吗?
我可以从 20 个咒语的初始状态开始,然后每个后续状态将是我剩下的咒语,最终状态将是巫师或兽人死亡。这有什么意义吗,还是我试图使用错误的 AI 算法来完成这项工作?
解决方案
在我看来很好。您正在寻找改变状态的动作轨迹。即,您的玩家和兽人健康状况使您因特定状态的发生而获得奖励。即杀死兽人。
推荐阅读
- android - Exoplayer - 多次调用 seekTo 时显示预览
- c++ - 在 C++ 中,是否可以将 CRTP 与私有基础一起使用?
- spring - 如何加密整个文件?
- git - 如何使用 .gitignore 反向选择
- algorithm - 在 Scala 中实现成对线性距离
- select - Azure SQL 数据库新创建的具有 dbo 架构的用户,但无法搜索 dbo 架构下的表
- python - 如何使用 Websocket 向服务器发送消息
- java - 在 Eclipse 中设置 EJB 构建类路径
- mysql - 如何使用join和left join mysql
- php - 使用 Joins 在 laravel 视图中显示 Json 数据