random - 强化学习:序列中样本的 SGD 使用和独立性
问题描述
我正在学习强化学习课程,很多时候,学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有一系列状态 S_t、动作 A_t,并在该序列的时间 t 获得奖励 R_t。
我对 SGD 的一般理解,例如,当在神经网络上使用训练数据集时,我们假设小批量中的数据是独立同分布的,这是有道理的,因为在某种程度上,我们使用平均值来“近似”期望假定从独立但完全相同的分布中绘制的点上的梯度。那么为什么我们在 RL 中使用 SGD 并随着时间的推移而增加呢?这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗?
感谢您澄清这一点。胺
解决方案
推荐阅读
- python - 如何处理子群帮助信息
- javascript - bootstrap 3 modal上的提交按钮在android上不起作用
- json - vue.js 生成器(API 平台)
- python - 使用 python 字符串格式插入选项卡
- git - Git - 如何撤消错误本地分支中的提交?
- jenkins - Jenkins管道,对象上的@Lazy属性在第一次调用时为NULL
- r - 从R中的扫描文档中读取二维码
- twitter-bootstrap-3 - 什么会导致本地 ASP.NET MVC 站点仅由于使用不同的 UNC 路径而无法完全显示?
- javascript - 无法在 ie 11 中打印 iframe
- swift - 我的结构从 JSON 初始化为 nil 但稍后需要添加值