首页 > 解决方案 > 强化学习ddpg过拟合问题

问题描述

我正在使用 DRL DDPG 来优化金融资产的投资组合选择。训练后 - 它显示出良好的结果。但是,当对新数据进行测试时,它会失败。可能是什么原因?是特征工程的问题吗?超参数调优?

我尝试了一些调整,如伽玛和缓冲区大小,但没有太大帮助。静止模型显示没有预测价值。

我还尝试了随机代理,它实际上比训练有素的代理提供了更好的结果:

while not dones:
#   action, _states = model.predict(obs)
action = env.get_attr('action_sample')
obs, rewards, dones, info = env.step(action) 

(self.action_sample = self.action_space.sample())

我一定做错了什么。

标签: reinforcement-learning

解决方案


推荐阅读