首页 > 解决方案 > 如何使用 Bert 进行长文本分类?

问题描述

我们知道 BERT 的最大长度限制为 tokens = 512,那么如果一篇文章的长度远大于 512,比如 text 中有 10000 个 token,那么如何使用 BERT?

标签: nlptext-classificationbert-language-model

解决方案


你基本上有三个选择:

  1. 您将较长的文本剪掉,只使用前 512 个令牌。最初的 BERT 实现(可能还有其他实现)会自动截断较长的序列。对于大多数情况,此选项就足够了。
  2. 您可以将文本拆分为多个子文本,对每个子文本进行分类并将结果组合在一起(例如,选择为大多数子文本预测的类)。这个选项显然更昂贵。
  3. 您甚至可以将每个潜文本的输出标记(如选项 2 中)提供给另一个网络(但您将无法微调),如本讨论中所述。

我建议尝试选项 1,并且仅当这还不足以考虑其他选项时。


推荐阅读