python - 下一个状态未定义的机器人 Q 学习算法

我是机器学习的新手，我正在开发一个环境是动态的机器人。我使用 python 作为我的项目的编程语言。

我有一个目标状态，机器人有四个动作，如前进、后退、右转和左转。

问题是当机器人采取一个动作时我无法定义下一个状态。但我可以在每一集之后确定状态是否是目标状态。

我如何为此应用强化学习模型。我可以使用 pomdp 吗？

标签： pythonpython-3.xnumpyreinforcement-learningq-learning

即使环境是动态的，您也应该有一些运动模型的概念，其中离散动作应该导致机器人直线前进“一步”。在网格世界中，这很容易，但是，在连续环境中，您可以将世界网格化并仍然使用离散动作。如果下一个状态未定义，则没有机器学习/决策算法可以工作。