c++ - 如何在 Q-learning 中计算 MaxQ?
问题描述
我正在使用指导他解决问题的网站的版本,但我有疑问:对于 maxQ,我是否使用新状态 (s') 的所有 Q 表值计算最大奖励 - 在我的情况下 4 可能动作(a'),每个动作都有各自的值 - 还是采取动作(a')时所有位置的Q表值的总和?
换句话说,我是使用我可以采取的所有可能行动中的最高 Q 值,还是使用所有“相邻”方格的 Q 值之和?
解决方案
你总是对你可以采取的所有可能的行动使用最大 Q 值。
这个想法是选择具有最大(最佳)下一个状态 Q 值的动作,以保持最佳策略 Qpi* 。
推荐阅读
- c++ - 在 intel 内部函数 (AVX) 中使用混合指令
- sql - 将 varchar 转换为日期 ddmmyyyy 时出错
- azure - Azure VM 无法访问端口 8080
- ios - Kingfisher + RxSwift DownsamplingImageProcessor 图像失败
- python-3.x - 从python中的元素列表中获取属性
- kubernetes - 使用 sh 命令时 Kubernetes Pod 的容器未运行
- flutter - 如何创建自定义颤振 sdk 小部件,重建颤振和使用新的小部件
- python - 在不同列上解析 JSON 的结果
- javascript - 我只需要在开始日期选择的日期选择器中显示未来一个月的日期
- python - 输入形状引起的负维度