首页 > 解决方案 > 利用强化学习中学到的策略的方法

问题描述

我想交叉检查我对强化学习的理解。训练策略然后重用学习的策略有多容易/困难或普遍?到目前为止我的理解是,当我们停止训练并且如果我们要重新开始时,它需要从头开始,即无法从学习的策略中受益。谢谢你。

标签: machine-learningreinforcement-learning

解决方案


这取决于您使用的具体方法,但一般来说,一旦学习方法收敛,就不需要“训练”。例如,在 Q-learning 的情况下,这是一种无模型的离策略学习方法,在算法收敛之前,代理仍必须采取随机动作以确保Q(s,a)空间中的每个相关点都具有被探索。但是每个单独的步骤都利用了从前几集获得的经验,所以说你从头开始每一集都是不正确的。


推荐阅读