artificial-intelligence - 如何奖励代理在自我对抗游戏强化学习中的行为?
问题描述
我是这个领域的初学者,我正在尝试实现一个代理来玩像国际象棋这样的对抗游戏。我创建了两个共享相同神经网络和经验缓冲区的代理。在每一步中,两个代理都会更新神经网络(交换特征顺序)。
我的自我游戏方法有意义吗?如果是,我将如何奖励代理的行为?
更清楚的是,遵循以下内容:
(0) 状态 -> (1) 代理 0 动作 -> (2) 奖励 -> (3) 状态 -> (4) 代理 1 动作 -> (5) 奖励 -> (6) 状态
(1) 之后 agent0 的下一个状态是 (3) 还是 (6)?相应的奖励是(2)还是(5)还是别的什么(例如(2)-(5))?
解决方案
推荐阅读
- c# - 模型值为空
- python-2.7 - Dask 分布有 numba 给出错误
- uml - UML 图和 Omnis Studio 5 或 8
- angular - Dynamics CRM:Xrm.Internal.openDialog() 取消按钮回调
- symfony - PhpUnit:错误:无法访问 jarfile ./../src/Java/File.jar
- java - maven 编译而不编码某些文件
- visual-studio-2017 - 在 Visual Studio 2017 中禁用快捷方式
- python - 从索引的笛卡尔积构建稀疏的 COO 矩阵结构
- javascript - reactjs将子状态解析为父状态
- javascript - Websocket连接错误 - Visual Studio Apache Cordova