machine-learning - 对强化学习 MDP 的 Q(s,a) 公式的理解感到困惑？

我试图理解为什么策略改进定理可以应用于 epsilon-greedy 策略的证据。

证明从数学定义开始——

我对证明的第一行感到困惑。

该方程是 Q(s,a) 的贝尔曼期望方程，而 V(s) 和 Q(s,a) 遵循以下关系 -

那么我们如何才能推导出证明的第一行呢？

标签： machine-learningartificial-intelligencereinforcement-learningmarkov-chainsmarkov-decision-process

最优控制问题在 1950 年代首次引入。问题是设计一个控制器来最大化或最小化目标函数。理查德贝尔曼通过引入贝尔曼方程来解决这个最优控制问题：

价值等于奖励的折扣总和。如果我们迈出第一步，我们会得到以下信息：

随后，经典的强化学习基于马尔可夫决策过程，并假设所有状态转换都是已知的。因此等式变为以下：

也就是说，总和等于从该状态的所有可能转换的总和，乘以实现新状态的奖励。

上面的方程写成值形式。有时，我们希望值也是动作的函数，从而创建动作值。上式转化为动作值形式为：

这个方程的最大问题是，在现实生活中，过渡概率实际上是未知的。除非问题非常简单，否则不可能知道每个状态的转移概率。为了解决这个问题，我们通常只取未来折扣部分的最大值。也就是说，我们假设我们在未来表现最佳，而不是取所有可能情况的平均值。

但是，在真实场景中，环境可能非常随机。因此，任何状态下动作价值函数的最佳估计只是一个估计。后概率情况是期望值。因此，给你：

奖励符号在您的方程式中是 t+1。这主要是因为不同的解释。上面的证明仍然适用于你的符号。它只是说在你到达下一个采样时间之前你不会知道你的奖励。