首页 > 解决方案 > BERT 预训练损失没有减少

问题描述

我正在使用原始参数(学习率 = 5e-5,训练批量大小 = 32,训练步骤数 = 100000)在单个 Cloud TPU v2 8 上使用保加利亚语数据集对 BERT 进行预训练。问题是它完成训练的速度非常快(3 小时),并且损失不低于 3。我的训练数据是 40 GB,我使用的是 tensorflow 1.15在此处输入图像描述

你知道问题可能是什么吗?

标签: nlplossbert-language-model

解决方案


推荐阅读