reinforcement-learning - soft-actor-critic 算法如何处理策略梯度？

所以我正在阅读软演员评论家论文https://arxiv.org/pdf/1801.01290.pdf

参与者使用从分布中采样的随机策略。神经网络用于近似策略。作者没有真正“采样”动作，而是将网络的输入扩展到状态加上噪声向量。

at = fφ(x; st)

其中 x 是噪声向量，例如 [x1, x2]

然后是概率πφ(at|s) is p(x1)*p(x2)，我想。

这意味着熵log πφ(at|s)与参数 φ 或 at 无关

因此，本文提供的策略梯度

∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)

可以简化为

∇φJπ(φ) = −∇at Q(st, at) * ∇φ fφ(x; st)

这与 DDPG 相同。
那么我在哪里犯了错误？谁来帮帮我？

标签： reinforcement-learning