deep-learning - 用大量图像训练强化学习模型

我正在尝试训练一个深度强化学习模型来完成迷宫逃逸任务，并且每次它都将一张图像作为输入（例如，不同的“迷宫”）。

假设我有大约 10K 个不同的迷宫图像，理想的情况是在训练 N 个迷宫之后，我的模型会很好地快速解决剩下的 10K - N 个图像中的难题。

我写信是为了询问一些关于如何为训练任务选择一个好的 N 的好主意/经验证据。

总的来说，我应该如何估计和增强我的强化模型的“迁移学习”能力？让它更通用？

任何意见或建议将不胜感激。谢谢。

标签： deep-learningreinforcement-learningtransfer-learning

首先，

我强烈建议您将2D 数组用于迷宫地图而不是图像，这将对您的模型大有帮助，因为它是一种更多的特征提取方法。尝试使用 2D 数组，其中墙壁由以 0 为基础的 1 展示。

关于找到优化的 N：

您的模型架构比训练数据在所有数据中的份额或批量大小更重要。最好先制作一个设计良好的模型，然后通过测试不同的 N 来找到 N 的优化量（因为它只是一个变量，优化 N 的过程可以很容易地由您自己完成）。