首页 > 解决方案 > 如何奖励代理在自我对抗游戏强化学习中的行为?

问题描述

我是这个领域的初学者,我正在尝试实现一个代理来玩像国际象棋这样的对抗游戏。我创建了两个共享相同神经网络和经验缓冲区的代理。在每一步中,两个代理都会更新神经网络(交换特征顺序)。

我的自我游戏方法有意义吗?如果是,我将如何奖励代理的行为?

更清楚的是,遵循以下内容:

(0) 状态 -> (1) 代理 0 动作 -> (2) 奖励 -> (3) 状态 -> (4) 代理 1 动作 -> (5) 奖励 -> (6) 状态

(1) 之后 agent0 的下一个状态是 (3) 还是 (6)?相应的奖励是(2)还是(5)还是别的什么(例如(2)-(5))?

标签: artificial-intelligencereinforcement-learning

解决方案


推荐阅读