nlp - 将 BertTokenizer 与 HuggingFace GPT-2 一起使用

问题描述

我有一个特定的生成问题，涉及从非常小的词汇表构建的数据集。理想情况下，如果我可以简单地在一组固定的标记中提供该词汇表，我的用例将更加直接。例如，我知道使用 BertTokenizer，我可以提供一个vocab.txt文件并避免对这个基本词汇进行任何进一步的标记化，我想知道是否有办法让 GPT-2 做同样的事情？我现在唯一能想到的就是创建一个被黑的PretrainedTokenizer子类，但也许有人有更好的主意？

任何想法表示赞赏。

BertTokenizer更新：好的，事实证明我可以BertWordpieceTokenizer在创建GPT2LMHeadModel. （感谢 HuggingFace 提供精心设计的模块化代码库！）

标签： nlphuggingface-transformersgpt-2

nlp - 将 BertTokenizer 与 HuggingFace GPT-2 一起使用

问题描述

解决方案

推荐阅读