neural-network - 深度强化学习
问题描述
我正在使用深度强化学习方法将代理从一个初始点导航到目标点。场景中还有其他特工和障碍物。
我的第一个问题是神经网络将有什么输入。
这些是我在初始场景中所知道的元素:
- 代理的位置和初始速度。
- 其他代理的职位
- 障碍物的位置
在其他情况下,我读到神经网络的输入是图像(可能使用了传感器),但在我的情况下,我不想使用视觉传感器。
2.我发现在强化学习算法中,数据集不是预先生成的,而是我们在训练时模拟数据。
我没有找到如何使用上面提到的 3 个元素创建数据集。
有人能帮我吗!先感谢您!!!
解决方案
神经网络的输入:可以是您认为有助于代理做出决策的任何特征
您可以通过为每个操作生成奖励来模拟数据。奖励可以是正面的或负面的,它将作为神经网络的目标。经过多次训练后,您的代理将学会采取具有高回报回报的行动。
推荐阅读
- amazon-web-services - 无通信 - ec2 实例在不同子网中有两个接口
- r - 删除 R 中的重复组合
- javascript - 如何通过 id Vue 获取对象表单存储
- codenameone - Codenameone:当背景图像与透明度一起使用时,阴影显示不正确
- php - 在没有 CronJob 的情况下使函数在一段时间后工作
- r - 你如何在 R 中沿树的分支输出值?
- go-gorm - 使用 GORM(Golang)保存时未更新关系
- javascript - 使用 node.js 和 ejs 重定向不起作用
- mysql - WHERE 子句中列的 DISTINCT 值的限制不是行数 - SQL
- c# - C# 代码/表达式来查找某个值在哪个范围内——