首页 > 解决方案 > 对强化学习 MDP 的 Q(s,a) 公式的理解感到困惑?

问题描述

我试图理解为什么策略改进定理可以应用于 epsilon-greedy 策略的证据。

证明从数学定义开始——

Barto 和 Sutton - 强化学习:简介

我对证明的第一行感到困惑。

在此处输入图像描述

该方程是 Q(s,a) 的贝尔曼期望方程,而 V(s) 和 Q(s,a) 遵循以下关系 -

在此处输入图像描述

那么我们如何才能推导出证明的第一行呢?

标签: machine-learningartificial-intelligencereinforcement-learningmarkov-chainsmarkov-decision-process

解决方案


最优控制问题在 1950 年代首次引入。问题是设计一个控制器来最大化或最小化目标函数。理查德贝尔曼通过引入贝尔曼方程来解决这个最优控制问题:

在此处输入图像描述

价值等于奖励的折扣总和。如果我们迈出第一步,我们会得到以下信息:

在此处输入图像描述

随后,经典的强化学习基于马尔可夫决策过程,并假设所有状态转换都是已知的。因此等式变为以下:

在此处输入图像描述

也就是说,总和等于从该状态的所有可能转换的总和,乘以实现新状态的奖励。

上面的方程写成值形式。有时,我们希望值也是动作的函数,从而创建动作值。上式转化为动作值形式为:

在此处输入图像描述

这个方程的最大问题是,在现实生活中,过渡概率实际上是未知的。除非问题非常简单,否则不可能知道每个状态的转移概率。为了解决这个问题,我们通常只取未来折扣部分的最大值。也就是说,我们假设我们在未来表现最佳,而不是取所有可能情况的平均值。

在此处输入图像描述

但是,在真实场景中,环境可能非常随机。因此,任何状态下动作价值函数的最佳估计只是一个估计。后概率情况是期望值。因此,给你:

在此处输入图像描述

奖励符号在您的方程式中是 t+1。这主要是因为不同的解释。上面的证明仍然适用于你的符号。它只是说在你到达下一个采样时间之前你不会知道你的奖励。


推荐阅读