random - 强化学习：序列中样本的 SGD 使用和独立性

问题描述

我正在学习强化学习课程，很多时候，学习价值函数权重的策略参数基本上归结为使用随机梯度下降 (SGD)。代理被表示为具有一系列状态 S_t、动作 A_t，并在该序列的时间 t 获得奖励 R_t。

我对 SGD 的一般理解，例如，当在神经网络上使用训练数据集时，我们假设小批量中的数据是独立同分布的，这是有道理的，因为在某种程度上，我们使用平均值来“近似”期望假定从独立但完全相同的分布中绘制的点上的梯度。那么为什么我们在 RL 中使用 SGD 并随着时间的推移而增加呢？这是由于 p(S_t | S_{t-1}) 分布的条件独立性的隐含假设吗？

感谢您澄清这一点。胺

标签： randomreinforcement-learningsgd

random - 强化学习：序列中样本的 SGD 使用和独立性

问题描述

解决方案

推荐阅读