reinforcement-learning - soft-actor-critic 算法如何处理策略梯度?
问题描述
所以我正在阅读软演员评论家论文https://arxiv.org/pdf/1801.01290.pdf
参与者使用从分布中采样的随机策略。神经网络用于近似策略。作者没有真正“采样”动作,而是将网络的输入扩展到状态加上噪声向量。
at = fφ(x; st)
其中 x 是噪声向量,例如 [x1, x2]
然后是概率πφ(at|s) is p(x1)*p(x2)
,我想。
这意味着熵log πφ(at|s)
与参数 φ 或 at 无关
因此,本文提供的策略梯度
∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)
可以简化为
∇φJπ(φ) = −∇at Q(st, at) * ∇φ fφ(x; st)
这与 DDPG 相同。
那么我在哪里犯了错误?谁来帮帮我?
解决方案
推荐阅读
- javascript - 当有 2 个 `catch`es 时抛出正确的消息
- shell - 如何检索由 docker-compose.yml 启动的确切容器名称
- c# - ML.Net 无法从 MVC 项目的存储中加载模型
- javascript - 根据数组的元素从数组中提取元素
- python - Python MySQL 连接器:错误 #2003
- c++ - 何时使用 vkCmd* 函数的参数?
- firebase - React-Native Firebase 身份验证错误消息卡住直到第二次尝试
- android - 如何从 void 方法中使用 findViewById 获取 Recyclerview id
- c++ - 为什么函数返回不移动向量?
- python - 用于屏蔽 API 的多个页面的迭代器