language-model - 使用领域文本预训练 BERT/RoBERTa 语言模型,估计需要多长时间?哪个更快?
问题描述
我想使用域语料库(与情感相关的文本)对 BERT 和 RoBERTa MLM 进行预训练。使用 50k~100k 个单词需要多长时间。由于 RoBERTa 没有接受过预测下一个句子目标的训练,比 BERT 少一个训练目标,并且具有更大的小批量和学习率,我认为 RoBERTa 会快得多?
解决方案
100k 字太少,无法训练像 BERT 或 RoBERTa 这样的大型模型。RoBERTa 论文的主要主张是 BERT 实际上训练不足。BERT 使用 16 GB 的文本数据进行训练,而 RoBERTa 使用了 160 GB 的纯文本。
对于您描述的特定领域的小型数据,您可以尝试微调现有模型。在这种情况下,我会选择 RoBERTa,因为它似乎经过更好的预训练,没有下一个句子目标(为它预处理数据很麻烦),并且它使用 SentencePiece 进行标记化,这允许无损去标记化。
推荐阅读
- windows - 通过遍历 .txt / .csv 文件中的名称列表来重命名目录中的多个文件以进行部分匹配
- php - AWS Ec2 中部署的 PHP API 的错误日志记录
- html - 如何在 Django 模板中显示其他格式的文件(.docx/.pdf/.txt)
- javascript - Safari 页面缩放导致错误的 event.clientX/Y
- c# - 如何在 VS 2019 中为 .netcore 3.1 创建调试器可视化工具
- html - 在 Ubuntu 上授予 apache2 读取权限
- postgresql - Amazon RDS postgres 数据已擦除,无法连接到数据库?
- node.js - 嵌入命令 discord.js 字符限制
- html - 如何从菜单汉堡图标中删除固定位置
- java - Need to sort array object based on other string array and remove unmatch object