首页 > 解决方案 > 经过一定数量的 epoch 后,深度 Q 学习代理的性能会下降

问题描述

我有一个 DQN 代理,它在特定网络上接受过培训以执行任务。然而,在训练代理时,我注意到在代理显示任务得分普遍增长的初始时期后,代理的性能突然出现急剧下降,就好像它重新开始一样。这发生了很多次。

我的代理人表现出从坏到好的表现波动等等。这对于 DQN 代理是否正常。我应该执行什么诊断才能消除这种波动?我已经为代理使用了经验回放和探索-利用。我对这个领域比较陌生,所以这个问题可能很微不足道。

标签: deep-learningreinforcement-learning

解决方案


这些波动是正常的,直到达到最佳水平。在大多数强化实验和论文中,结果以加权平均值显示window size of 15-30。这是我的dqn实现图。


推荐阅读