首页 > 解决方案 > 强化学习、Q 学习以确定最佳施法顺序?

问题描述

如果我有一个法师,他有 20 个法术,每个法术都有不同的作用,有时是直接伤害,有时是禁用,有时是保护等。他与 10 个兽人打架,我想确定一个最佳施法顺序来杀死兽人尽可能快。

Q学习会帮助解决这个问题吗?

我可以从 20 个咒语的初始状态开始,然后每个后续状态将是我剩下的咒语,最终状态将是巫师或兽人死亡。这有什么意义吗,还是我试图使用错误的 AI 算法来完成这项工作?

标签: artificial-intelligencereinforcement-learningq-learning

解决方案


在我看来很好。您正在寻找改变状态的动作轨迹。即,您的玩家和兽人健康状况使您因特定状态的发生而获得奖励。即杀死兽人。


推荐阅读