nlp - 如何使用 Bert 进行长文本分类?
问题描述
我们知道 BERT 的最大长度限制为 tokens = 512,那么如果一篇文章的长度远大于 512,比如 text 中有 10000 个 token,那么如何使用 BERT?
解决方案
你基本上有三个选择:
- 您将较长的文本剪掉,只使用前 512 个令牌。最初的 BERT 实现(可能还有其他实现)会自动截断较长的序列。对于大多数情况,此选项就足够了。
- 您可以将文本拆分为多个子文本,对每个子文本进行分类并将结果组合在一起(例如,选择为大多数子文本预测的类)。这个选项显然更昂贵。
- 您甚至可以将每个潜文本的输出标记(如选项 2 中)提供给另一个网络(但您将无法微调),如本讨论中所述。
我建议尝试选项 1,并且仅当这还不足以考虑其他选项时。
推荐阅读
- csv - Goolge Colab 文件上传不上传 csv 文件
- sql-server - 换行符在sql server中显示为空格
- javascript - 使用 $http.post() 以“FormData”形式传递图像和其他数据时出现问题
- python - 用 conda 分发你的 python 包?
- python-3.x - Pandas Dataframe - 将 groupby 内容转换为列表
- python - gspread.exception 电子表格未在特定工作表上找到
- clojure - 如何模拟协议的特定实现?
- jquery - Jquery未在电话间隙应用程序中执行显示
- marklogic-9 - 我们可以在marklogic中编写一个唯一的TDE配置文件来从不同的实体xml文档中获取数据吗
- node.js - 使用 Request 从 NodeJS 发帖