machine-learning - 对强化学习 MDP 的 Q(s,a) 公式的理解感到困惑?
问题描述
我试图理解为什么策略改进定理可以应用于 epsilon-greedy 策略的证据。
证明从数学定义开始——
我对证明的第一行感到困惑。
该方程是 Q(s,a) 的贝尔曼期望方程,而 V(s) 和 Q(s,a) 遵循以下关系 -
那么我们如何才能推导出证明的第一行呢?
解决方案
最优控制问题在 1950 年代首次引入。问题是设计一个控制器来最大化或最小化目标函数。理查德贝尔曼通过引入贝尔曼方程来解决这个最优控制问题:
价值等于奖励的折扣总和。如果我们迈出第一步,我们会得到以下信息:
随后,经典的强化学习基于马尔可夫决策过程,并假设所有状态转换都是已知的。因此等式变为以下:
也就是说,总和等于从该状态的所有可能转换的总和,乘以实现新状态的奖励。
上面的方程写成值形式。有时,我们希望值也是动作的函数,从而创建动作值。上式转化为动作值形式为:
这个方程的最大问题是,在现实生活中,过渡概率实际上是未知的。除非问题非常简单,否则不可能知道每个状态的转移概率。为了解决这个问题,我们通常只取未来折扣部分的最大值。也就是说,我们假设我们在未来表现最佳,而不是取所有可能情况的平均值。
但是,在真实场景中,环境可能非常随机。因此,任何状态下动作价值函数的最佳估计只是一个估计。后概率情况是期望值。因此,给你:
奖励符号在您的方程式中是 t+1。这主要是因为不同的解释。上面的证明仍然适用于你的符号。它只是说在你到达下一个采样时间之前你不会知道你的奖励。
推荐阅读
- php - 如何从 JSON 中获取密钥
- firebase - Firebase 分析 (6.3.0) 注意:使用或覆盖已弃用的 API
- c++ - LNK1104 仅在调试模式下发生
- mysql - 如何设置MYSQL CONCAT MAX LENGTH
- typescript - Firebase UID 输出到带有打字稿云功能的文档
- amazon-web-services - dynamodb GSI 是否会使我的表的写入成本翻倍?
- soap - 如何使用 SOAP API 检索 Sabre 配置文件
- excel - 附加信息时嵌套 IF 和 ISBLANK
- javascript - 贝宝弹出窗口关闭后,我可以在贝宝端保存一个唯一的 ID,如 invoice_id
- vue.js - Nuxt.js 无法构造“URL”:无效的 URL - UUID