首页 > 解决方案 > 深度强化学习

问题描述

我正在使用深度强化学习方法将代理从一个初始点导航到目标点。场景中还有其他特工和障碍物。

我的第一个问题是神经网络将有什么输入。

这些是我在初始场景中所知道的元素:

  1. 代理的位置和初始速度。
  2. 其他代理的职位
  3. 障碍物的位置

在其他情况下,我读到神经网络的输入是图像(可能使用了传感器),但在我的情况下,我不想使用视觉传感器。

2.我发现在强化学习算法中,数据集不是预先生成的,而是我们在训练时模拟数据。

我没有找到如何使用上面提到的 3 个元素创建数据集。

有人能帮我吗!先感谢您!!!

标签: neural-networkreinforcement-learning

解决方案


  1. 神经网络的输入:可以是您认为有助于代理做出决策的任何特征

  2. 您可以通过为每个操作生成奖励来模拟数据。奖励可以是正面的或负面的,它将作为神经网络的目标。经过多次训练后,您的代理将学会采取具有高回报回报的行动。


推荐阅读