nlp - BERT 预训练损失没有减少

问题描述

我正在使用原始参数（学习率 = 5e-5，训练批量大小 = 32，训练步骤数 = 100000）在单个 Cloud TPU v2 8 上使用保加利亚语数据集对 BERT 进行预训练。问题是它完成训练的速度非常快（3 小时），并且损失不低于 3。我的训练数据是 40 GB，我使用的是 tensorflow 1.15在此处输入图像描述

你知道问题可能是什么吗？

标签： nlplossbert-language-model

nlp - BERT 预训练损失没有减少

问题描述

解决方案

推荐阅读