nlp - BERT 预训练损失没有减少
问题描述
我正在使用原始参数(学习率 = 5e-5,训练批量大小 = 32,训练步骤数 = 100000)在单个 Cloud TPU v2 8 上使用保加利亚语数据集对 BERT 进行预训练。问题是它完成训练的速度非常快(3 小时),并且损失不低于 3。我的训练数据是 40 GB,我使用的是 tensorflow 1.15在此处输入图像描述
你知道问题可能是什么吗?
解决方案
推荐阅读
- c - 堆栈数组变量不一致C
- arrays - 使用 go 中的范围选择 2D 切片的 2D 子切片
- vagrant - 关于我的 vagrant vm 的“No space left on device”错误的两个问题
- sql - sql查询函数中的变量参数
- python - 如何为不连续的照片颜色蒙版区域生成单独的边界框
- r - 代码未在指定条件下过滤数据
- c - GCC 对 const 限定符的警告是否正确?
- c++ - 强制 g++ 指示何时不包含库
- android - Gradle 3.3.0 和 Android Studio 3.3.0 上的 Kotlin Android 扩展无法解析 id
- javascript - 如何使用javascript根据另一个单元格上的单选按钮更改表格单元格颜色?