首页 > 解决方案 > 下一个状态未定义的机器人 Q 学习算法

问题描述

我是机器学习的新手,我正在开发一个环境是动态的机器人。我使用 python 作为我的项目的编程语言。

我有一个目标状态,机器人有四个动作,如前进、后退、右转和左转。

问题是当机器人采取一个动作时我无法定义下一个状态。但我可以在每一集之后确定状态是否是目标状态。

我如何为此应用强化学习模型。我可以使用 pomdp 吗?

标签: pythonpython-3.xnumpyreinforcement-learningq-learning

解决方案


即使环境是动态的,您也应该有一些运动模型的概念,其中离散动作应该导致机器人直线前进“一步”。在网格世界中,这很容易,但是,在连续环境中,您可以将世界网格化并仍然使用离散动作。如果下一个状态未定义,则没有机器学习/决策算法可以工作。


推荐阅读