首页 > 解决方案 > 使用强化学习模型ddpg时,输入数据为序列数据

问题描述

使用强化学习模型ddpg时,输入数据为序列数据、高维(21维)状态和低维(1维)动作。这对模型的训练有什么负面影响吗?如何解决

标签: reinforcement-learning

解决方案


一般来说,在任何机器学习场景中,维度本身都不是问题,主要取决于输入数据有多少可变性。当然,高维数据比低维数据具有更高的可变性。

即使考虑到这一点,也可以通过向 ML 算法提供更多数据并增加允许表示的复杂性(即神经网络中的更多节点和/或层)来“轻松”解决问题。

在 RL 中,这甚至不是什么问题,因为您对实际拥有的数据量并没有真正的限制。你总是可以在环境中运行你的代理,以获得更多的样本轨迹来训练。您可能会在这里发现的唯一问题是您的计算时间会增加很多(取决于您需要在环境中训练多少才能解决这个问题)。


推荐阅读