artificial-intelligence - 如何奖励代理在自我对抗游戏强化学习中的行为？

我是这个领域的初学者，我正在尝试实现一个代理来玩像国际象棋这样的对抗游戏。我创建了两个共享相同神经网络和经验缓冲区的代理。在每一步中，两个代理都会更新神经网络（交换特征顺序）。

我的自我游戏方法有意义吗？如果是，我将如何奖励代理的行为？

更清楚的是，遵循以下内容：

(0) 状态 -> (1) 代理 0 动作 -> (2) 奖励 -> (3) 状态 -> (4) 代理 1 动作 -> (5) 奖励 -> (6) 状态

(1) 之后 agent0 的下一个状态是 (3) 还是 (6)？相应的奖励是（2）还是（5）还是别的什么（例如（2）-（5））？

标签： artificial-intelligencereinforcement-learning