reinforcement-learning - 强化学习ddpg过拟合问题

我正在使用 DRL DDPG 来优化金融资产的投资组合选择。训练后 - 它显示出良好的结果。但是，当对新数据进行测试时，它会失败。可能是什么原因？是特征工程的问题吗？超参数调优？

我尝试了一些调整，如伽玛和缓冲区大小，但没有太大帮助。静止模型显示没有预测价值。

我还尝试了随机代理，它实际上比训练有素的代理提供了更好的结果：

while not dones:
#   action, _states = model.predict(obs)
action = env.get_attr('action_sample')
obs, rewards, dones, info = env.step(action)

(self.action_sample = self.action_space.sample())

我一定做错了什么。

标签： reinforcement-learning