machine-learning - 当动作不影响强化学习中的状态时,它叫什么?
问题描述
在强化学习中,是否存在所采取的行动不影响状态的算法名称?例如武装土匪
解决方案
在 RL 设置中,武装匪徒被认为是无状态的,因此动作自然不会影响状态。只有行动和奖励。
如果您添加了一个状态,但这些操作对下一个状态没有影响,则它们被称为Contextual Bandits。上下文强盗有状态、动作和奖励。您的状态(或“上下文”)可能会影响您的操作,但反过来不会,即没有像普通 RL 那样的转换规则。
推荐阅读
- vue.js - 自定义 numberfield 不针对 NaN 进行验证
- css - 如何控制径向渐变中椭圆的高度
- python - 获取具有相同ID的列的差异
- html - 当 div 长于 100% 时,CSS 会忽略 margin-right
- r - 使用 dplyr 聚合数据,列值有条件地聚合,取决于其他列中的值
- elasticsearch - 如何在 ElasticSeach 的嵌套对象中添加新字段?
- r - 使用 R,如何根据要选择的列名称的一列从不同列中选择值?
- python - 如何在启动时从 Ubuntu 启动 Eclipse
- java - 在 .xml 文件设计中没有显示在整个项目中
- django - Django ORM:检查字段是空白还是填充