首页 > 解决方案 > 将 BertTokenizer 与 HuggingFace GPT-2 一起使用

问题描述

我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供该词汇表,我的用例将更加直接。例如,我知道使用 BertTokenizer,我可以提供一个vocab.txt文件并避免对这个基本词汇进行任何进一步的标记化,我想知道是否有办法让 GPT-2 做同样的事情?我现在唯一能想到的就是创建一个被黑的PretrainedTokenizer子类,但也许有人有更好的主意?

任何想法表示赞赏。

BertTokenizer更新:好的,事实证明我可以BertWordpieceTokenizer在创建GPT2LMHeadModel. (感谢 HuggingFace 提供精心设计的模块化代码库!)

标签: nlphuggingface-transformersgpt-2

解决方案


推荐阅读