首页 > 解决方案 > soft-actor-critic 算法如何处理策略梯度?

问题描述

所以我正在阅读软演员评论家论文https://arxiv.org/pdf/1801.01290.pdf

参与者使用从分布中采样的随机策略。神经网络用于近似策略。作者没有真正“采样”动作,而是将网络的输入扩展到状态加上噪声向量。

at = fφ(x; st)

其中 x 是噪声向量,例如 [x1, x2]

然后是概率πφ(at|s) is p(x1)*p(x2),我想。

这意味着熵log πφ(at|s)与参数 φ 或 at 无关

因此,本文提供的策略梯度

∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)

可以简化为

∇φJπ(φ) = −∇at Q(st, at) * ∇φ fφ(x; st)

这与 DDPG 相同。
那么我在哪里犯了错误?谁来帮帮我?

标签: reinforcement-learning

解决方案


推荐阅读