首页 > 解决方案 > 当动作不影响强化学习中的状态时,它叫什么?

问题描述

在强化学习中,是否存在所采取的行动不影响状态的算法名称?例如武装土匪

标签: machine-learningreinforcement-learning

解决方案


在 RL 设置中,武装匪徒被认为是无状态的,因此动作自然不会影响状态。只有行动和奖励。

如果您添加了一个状态,但这些操作对下一个状态没有影响,则它们被称为Contextual Bandits。上下文强盗有状态、动作和奖励。您的状态(或“上下文”)可能会影响您的操作,但反过来不会,即没有像普通 RL 那样的转换规则。


推荐阅读