首页 > 解决方案 > 强化学习:Actor-Critic 总是比策略梯度方法更好吗?

问题描述

我是强化学习的新手,我想尝试编写自己的小型库,我想知道是否存在任何实施策略梯度的理由。

谢谢!!

标签: machine-learningartificial-intelligencereinforcement-learning

解决方案


Actor-critic 是一种策略梯度算法。除非您使用的术语与我习惯的不同。

在策略梯度算法中,我们采用一些参数参数化的策略,根据所采取的动作找到策略的梯度,然后朝着梯度更新策略参数。

演员评论家正是这样做的。

在 actor-critic 中,价值函数也被计算并影响更新。但是,它仍然是一种策略梯度算法。


推荐阅读