artificial-intelligence - 关于二维迷宫中的 Q-learning 的问题
问题描述
我刚刚阅读了关于 Q-learning 的内容,但我不确定我是否理解正确。我看到的所有例子都是老鼠迷宫,老鼠必须向奶酪移动,而奶酪却不动。
我只是想知道是否有可能在鼠标和奶酪都移动的情况下进行 Q-learning(所以一个代理追逐而另一个逃跑)。
如果 Q-learning 在这种情况下不起作用,我们是否还有其他算法(贪婪或非贪婪)有效?
还有这种情况的正式/学术名称吗?我想搜索讨论这个但找不到它的正式/学术名称的论文。
太感谢了!
解决方案
所有 RL 算法都使单个代理能够学习策略。在涉及多个参与者(例如鼠标和奶酪)的问题中,一个参与者(鼠标)将使用 RL 算法学习策略,而另一个参与者(奶酪)将由一些非 RL 的 AI 引导。如果鼠标和奶酪都是 RL 代理,那么您正在查看多代理 RL。这是一个很好的框架:https ://github.com/PettingZoo-Team/PettingZoo/
Q-learning 可能是最受初学者欢迎的 RL 技术,但只能解决具有离散状态空间的非常简单的玩具问题,例如 2D 迷宫。它在解决具有连续状态空间的问题时不是很有效,即使是简单的问题,例如 Cartpole。它可能会解决它们,但会比其他 RL 方法花费更长的时间。然而,Q 学习与神经网络相结合可能非常强大,如深度 Q 网络 (DQN) 和双 DQN 等 RL 方法所证明的那样。
推荐阅读
- sockets - UDP 套接字 - 禁用传入广播
- automation - 自动化发布管道创建 Azure Devops
- c# - WPF/c# 从 Page.xaml 访问数据集
- amazon-web-services - aws:ARN 条件键在哪里定义?
- laravel - 使用 ReadWriteMany 从 EFS 卷上的多个 Pod 写入文件时出现不一致的行为
- python - 识别用于在熊猫中提取日期的日期时间格式
- express - 带有可选参数的快速路线?
- database - 数据库存在时未调用 idb 函数(upgradeDb)
- sql - TSQL - 提取两个单词之间的文本
- python - 无法正确使用 str() 函数,但答案正确