首页 > 解决方案 > 为什么 Bert 格式需要一次性列?

问题描述

我最近遇到了 Bert(变形金刚的双向编码器表示)。我看到 Bert 要求训练数据有严格的格式。所需的第三列描述如下:

第 3列:所有相同字母的列——这是一个需要包含的一次性列,因为 BERT 模型需要它。

什么是一次性列,为什么在数据集中需要此列,因为它声明它包含相同的字母?

谢谢你。

标签: machine-learningdeep-learningnlpbert-language-model

解决方案


BERT 在两个任务上进行了预训练——蒙面语言建模和下一句预测。

您所指的第三列仅用于下一句预测和需要多个句子的下游任务,例如问答。在这些情况下,列的值将不仅仅是 A 或 0 对于所有内容。第 1 句全为 0,第 2 句全为 1,表示前者为 A 句,后者为 B 句。


推荐阅读