python - 用于实现 t5 的标记化
问题描述
我正在尝试在每个文档超过 4000 个单词的文本数据上实现 t5。我将实现 t5 用于文档摘要。作为旁注,文本在数据框中转换为系列,并存储在 csv 单元格中。
鉴于有 512 个令牌的限制,我无法总结整个文档,有两个建议。
- 使用longformers。根据我所做的研究,没有关于如何将变压器转换为长形变压器的指南。
- 对每个长度为 512 的文本进行标记,实现 t5 的长度限制为 512,然后将摘要组合回来。
我的问题是,鉴于我有一个包含所有句子的系列形式的文本,我应该在单词级别还是在句子级别进行标记化?作为旁注;我将在下一阶段用这些总结来实施 BERT。
非常感谢您提前提供的帮助。
解决方案
推荐阅读
- c - printf() 没有首先出现
- python - Django/admin 表单:如何使用用户名初始化数据(访问请求对象)?
- mongodb - 通过带有参数的石墨烯查询 mongoDB
- linux - GPG 密钥新密钥但不包含用户 ID
- firebase - 为什么首先显示红色错误屏幕,然后获取的值出现在屏幕上?问题出在哪里
- javascript - 如何用动态键填充特定状态?
- sql - 如何仅从 netezza 中的日期时间戳格式中提取日期
- javascript - 嵌套元素对象
- windows-subsystem-for-linux - 用于 linux 2 (wsl2) 的 windows 子系统下的 ubuntu 无法访问互联网
- open-policy-agent - 比较 Rego 语言中的两个数组