machine-learning - 强化学习:Actor-Critic 总是比策略梯度方法更好吗?
问题描述
我是强化学习的新手,我想尝试编写自己的小型库,我想知道是否存在任何实施策略梯度的理由。
谢谢!!
解决方案
Actor-critic 是一种策略梯度算法。除非您使用的术语与我习惯的不同。
在策略梯度算法中,我们采用一些参数参数化的策略,根据所采取的动作找到策略的梯度,然后朝着梯度更新策略参数。
演员评论家正是这样做的。
在 actor-critic 中,价值函数也被计算并影响更新。但是,它仍然是一种策略梯度算法。
推荐阅读
- laravel - Laravel 搜索查询优化
- c - 如何将用户输入限制为仅数字?
- arduino - Arduino:(char)Serial.read() 返回为⸮(反问号)
- python - How to get an input after a with open?
- python - Python, Pandas, sql, read specific columns from a database with a for-loop
- html - Small gap between image and image border on chrome & edge desktop
- html - CSS for toggle collapse
- python - Redis-py connection doesn't timeout
- python - tkinter 屏幕无缘无故冻结
- docker-compose - Zabbix on docker-compose don't start zabbix-agent