deep-learning - 经过一定数量的 epoch 后，深度 Q 学习代理的性能会下降

首页 > 解决方案 > 经过一定数量的 epoch 后，深度 Q 学习代理的性能会下降

问题描述

我有一个 DQN 代理，它在特定网络上接受过培训以执行任务。然而，在训练代理时，我注意到在代理显示任务得分普遍增长的初始时期后，代理的性能突然出现急剧下降，就好像它重新开始一样。这发生了很多次。

我的代理人表现出从坏到好的表现波动等等。这对于 DQN 代理是否正常。我应该执行什么诊断才能消除这种波动？我已经为代理使用了经验回放和探索-利用。我对这个领域比较陌生，所以这个问题可能很微不足道。

标签： deep-learningreinforcement-learning

解决方案

这些波动是正常的，直到达到最佳水平。在大多数强化实验和论文中，结果以加权平均值显示window size of 15-30。这是我的dqn实现图。

推荐阅读