首页 > 解决方案 > 如何在 Q-learning 中计算 MaxQ?

问题描述

我正在实现 Q 学习,特别是贝尔曼方程。贝尔曼方程

我正在使用指导他解决问题的网站的版本,但我有疑问:对于 maxQ,我是否使用新状态 (s') 的所有 Q 表值计算最大奖励 - 在我的情况下 4 可能动作(a'),每个动作都有各自的值 - 还是采取动作(a')时所有位置的Q表值的总和?

换句话说,我是使用我可以采取的所有可能行动中的最高 Q 值,还是使用所有“相邻”方格的 Q 值之和?

标签: c++reinforcement-learningq-learning

解决方案


你总是对你可以采取的所有可能的行动使用最大 Q 值。

这个想法是选择具有最大(最佳)下一个状态 Q 值的动作,以保持最佳策略 Qpi* 。


推荐阅读