首页 > 解决方案 > 深度纯价值强化学习:训练 V(s) 而不是 Q(s,a)?

问题描述

是否有可用的基于价值的(深度)强化学习 RL 算法,它完全围绕仅学习状态-价值函数V(s)而不是状态-动作-价值函数Q(s,a)

如果没有,为什么不,或者,它是否可以很容易地实施?

Python 中是否有任何实现,比如 Pytorch、Tensorflow 或者 RLlib 中的更高级别?

我问是因为

我知道 Dueling DQN (DDQN),但它似乎并不是我正在寻找的。“至少” DDQN 有一个单独的学习器V(s),但总体而言,它仍然以Q(s,a)分散的方式轻松学习,这在我的情况下似乎不利于。

标签: deep-learningdynamic-programmingreinforcement-learningq-learningdqn

解决方案


推荐阅读