deep-learning - 经过一定数量的 epoch 后,深度 Q 学习代理的性能会下降
问题描述
我有一个 DQN 代理,它在特定网络上接受过培训以执行任务。然而,在训练代理时,我注意到在代理显示任务得分普遍增长的初始时期后,代理的性能突然出现急剧下降,就好像它重新开始一样。这发生了很多次。
我的代理人表现出从坏到好的表现波动等等。这对于 DQN 代理是否正常。我应该执行什么诊断才能消除这种波动?我已经为代理使用了经验回放和探索-利用。我对这个领域比较陌生,所以这个问题可能很微不足道。
解决方案
推荐阅读
- python-3.x - 如何修复 ModuleNotFoundError: No module named 'pip._internal' with python source code installation
- java - 了解 Netty 内部结构
- python - 在 NLTK 中使用 Python 从 Wiki DumpFile 中制作语料库
- java - 我的 ArrayList 没有按 Collections.sort() 排序
- java - 如何在运行时获取“colorControlHighlight”属性的值?
- django - nginx 停止使用 WSL 为 django 应用程序提供静态文件夹
- sql - Postgres:为什么我需要在 max() 中引用列名?
- jvm - 由于 grpc-netty-shaded-1.19.0.jar,谷歌云 Firestore 无法在 32 位 JVM 中运行
- c# - 使用 Ninject 加载多个绑定
- json - 从 Angular 中的服务器导入 JSON