首页 > 解决方案 > 贝尔曼方程的版本

问题描述

在浏览有关强化学习的各种资料时,我发现了VQ方程的两个版本:

这对:

V(s) = max<sub>a</sub> (sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda V(s')))

Q(s,a) = sum<sub>s'</sub> P(s'|s,a) (R(s,a,s') + lambda max<sub>a'</sub> Q(s',a'))

而这一对:

V(s) = R(s,a) + max<sub>a</sub> (sum <sub>s'</sub> P(s'|s,a) lambda V(s'))

Q(s,a) = R(s,a) + sum<sub>s'</sub> (P(s'|s,a) lambda max<sub>a'</sub> Q(s',a'))

主要区别在于其价值中是否包含即时奖励,V以及Q状态的价值是完全由状态决定还是由转换决定。虽然我很少看到后面的一对,但我相信它是正确的。

这两者之间的这些或任何其他差异是否会影响各种强化算法的工作方式?

标签: reinforcement-learningbellman-ford

解决方案


当奖励对于给定的状态和动作是确定的时使用第一对,当奖励也是随机的时使用第二对。

实际上,环境决定了您必须使用哪一对。例如,在 Atari-2600 这样的环境中,第一对是有效的,因为对于给定的状态和动作,您总是获得相同的奖励值。


推荐阅读