首页 > 解决方案 > 用于实现 t5 的标记化

问题描述

我正在尝试在每个文档超过 4000 个单词的文本数据上实现 t5。我将实现 t5 用于文档摘要。作为旁注,文本在数据框中转换为系列,并存储在 csv 单元格中。

鉴于有 512 个令牌的限制,我无法总结整个文档,有两个建议。

  1. 使用longformers。根据我所做的研究,没有关于如何将变压器转换为长形变压器的指南。
  2. 对每个长度为 512 的文本进行标记,实现 t5 的长度限制为 512,然后将摘要组合回来。

我的问题是,鉴于我有一个包含所有句子的系列形式的文本,我应该在单词级别还是在句子级别进行标记化?作为旁注;我将在下一阶段用这些总结来实施 BERT。

非常感谢您提前提供的帮助。

标签: pythonnlptokenizebert-language-model

解决方案


推荐阅读