deep-learning - 强化学习:代理 vs 网络 vs 模型 vs 策略
问题描述
不同的 RL 库和论文倾向于混淆这些术语:代理、网络、模型和策略。我正在尝试使用多代理 RL,每个代理使用多个网络,可能以分层方式。因此,我想事先澄清这些术语之间的区别。请阅读我目前对这些术语的理解,如果我理解正确,请告诉我。
我的理解如下:
- 代理:在给定环境中观察和行动以最大化奖励的“主体”。(它可能有一个或多个神经网络,如果我选择非深度学习方法,甚至没有。)
- 模型:训练代理所产生的数学模型。它不一定是神经网络,因为我可以简单地使用线性回归方法。但是,由于我使用的是深度强化学习,因此模型意味着我的工作中一个或多个神经网络的组合。
- 神经网络:模仿人脑的数学模型。它是由训练代理使用/产生的。一个代理可能有一个或多个,这取决于它的结构。(例如,AC 网络在技术上使用两个网络。此外,像 AlphaStar 这样的复杂模型为单个代理使用了 10 多个网络。)
- 策略:就马尔可夫决策过程而言,它可以简单地解释为在给定状态下选择动作的概率数组。对于深度强化学习,网络确定代理的策略(即概率)。
我感谢任何帮助/评论。谢谢。
解决方案
推荐阅读
- python - 如何在 python 数据框中的新列中插入文件名的值?
- pytorch - 使用后我们可以更改张量的内容吗?
- adobe - Adobe Analytics 2.0 API 端点,用于获取报表包事件、道具和 evas
- office365 - 如何使用 Graph API 将团队创建为私人团队
- powershell - 在 Powershell 中运行命令行命令
- java - 如何使用 Javafx 显示我在选项卡窗格中选择的文件的内容?
- java - 如何使用 Spring Boot 2 (Spring 5 + Tomcat 9) 将 JSP 渲染捕获为字符串?
- spring-data-jpa - 我可以使用 JpaSpecificationExecutor 将 where 子句的 in 操作符与子查询组合成同一个表吗?
- multithreading - 旋转线程池:浮点异常(核心转储)
- javascript - for 循环不反映 setTimeout 回调引起的变化