首页 > 解决方案 > 关于二维迷宫中的 Q-learning 的问题

问题描述

我刚刚阅读了关于 Q-learning 的内容,但我不确定我是否理解正确。我看到的所有例子都是老鼠迷宫,老鼠必须向奶酪移动,而奶酪却不动。

我只是想知道是否有可能在鼠标和奶酪都移动的情况下进行 Q-learning(所以一个代理追逐而另一个逃跑)

如果 Q-learning 在这种情况下不起作用,我们是否还有其他算法(贪婪或非贪婪)有效?

还有这种情况的正式/学术名称吗?我想搜索讨论这个但找不到它的正式/学术名称的论文。

太感谢了!

标签: artificial-intelligencereinforcement-learningmazeq-learning

解决方案


所有 RL 算法都使单个代理能够学习策略。在涉及多个参与者(例如鼠标和奶酪)的问题中,一个参与者(鼠标)将使用 RL 算法学习策略,而另一个参与者(奶酪)将由一些非 RL 的 AI 引导。如果鼠标和奶酪都是 RL 代理,那么您正在查看多代理 RL。这是一个很好的框架:https ://github.com/PettingZoo-Team/PettingZoo/

Q-learning 可能是最受初学者欢迎的 RL 技术,但只能解决具有离散状态空间的非常简单的玩具问题,例如 2D 迷宫。它在解决具有连续状态空间的问题时不是很有效,即使是简单的问题,例如 Cartpole。它可能会解决它们,但会比其他 RL 方法花费更长的时间。然而,Q 学习与神经网络相结合可能非常强大,如深度 Q 网络 (DQN) 和双 DQN 等 RL 方法所证明的那样。


推荐阅读