machine-learning - 利用强化学习中学到的策略的方法
问题描述
我想交叉检查我对强化学习的理解。训练策略然后重用学习的策略有多容易/困难或普遍?到目前为止我的理解是,当我们停止训练并且如果我们要重新开始时,它需要从头开始,即无法从学习的策略中受益。谢谢你。
解决方案
这取决于您使用的具体方法,但一般来说,一旦学习方法收敛,就不需要“训练”。例如,在 Q-learning 的情况下,这是一种无模型的离策略学习方法,在算法收敛之前,代理仍必须采取随机动作以确保Q(s,a)空间中的每个相关点都具有被探索。但是每个单独的步骤都利用了从前几集获得的经验,所以说你从头开始每一集都是不正确的。
推荐阅读
- python - python乌龟没有属性去
- javascript - 选择字符串中的值
- xamarin.forms - Xamarin Forms (VS2019) + iOS Intents UI:如何从扩展访问资产 (IntentsUI)
- jquery - 未捕获的 SyntaxError:jQuery 中的意外标记“(”
- python - 如何使用 output.py 以正确的格式查看文本文件?
- sql - 找到确切的重叠时间
- c# - Mathf.Pow 在 C# 上显示无穷大
- mysql - SQL:子查询中的列没有出现
- sql - SQL 日期过滤器:当开始日期 = 结束日期时返回结果
- java - 根据 StackedBarChart 中的条件对值进行分类和更改颜色