nlp - 如何使用 Bert 进行长文本分类？

首页 > 解决方案 > 如何使用 Bert 进行长文本分类？

问题描述

我们知道 BERT 的最大长度限制为 tokens = 512，那么如果一篇文章的长度远大于 512，比如 text 中有 10000 个 token，那么如何使用 BERT？

标签： nlptext-classificationbert-language-model

解决方案

你基本上有三个选择：

您将较长的文本剪掉，只使用前 512 个令牌。最初的 BERT 实现（可能还有其他实现）会自动截断较长的序列。对于大多数情况，此选项就足够了。
您可以将文本拆分为多个子文本，对每个子文本进行分类并将结果组合在一起（例如，选择为大多数子文本预测的类）。这个选项显然更昂贵。
您甚至可以将每个潜文本的输出标记（如选项 2 中）提供给另一个网络（但您将无法微调），如本讨论中所述。

我建议尝试选项 1，并且仅当这还不足以考虑其他选项时。

推荐阅读