nlp - 将 BertTokenizer 与 HuggingFace GPT-2 一起使用
问题描述
我有一个特定的生成问题,涉及从非常小的词汇表构建的数据集。理想情况下,如果我可以简单地在一组固定的标记中提供该词汇表,我的用例将更加直接。例如,我知道使用 BertTokenizer,我可以提供一个vocab.txt
文件并避免对这个基本词汇进行任何进一步的标记化,我想知道是否有办法让 GPT-2 做同样的事情?我现在唯一能想到的就是创建一个被黑的PretrainedTokenizer
子类,但也许有人有更好的主意?
任何想法表示赞赏。
BertTokenizer
更新:好的,事实证明我可以BertWordpieceTokenizer
在创建GPT2LMHeadModel
. (感谢 HuggingFace 提供精心设计的模块化代码库!)
解决方案
推荐阅读
- python - 如何使用 matplot 绘制动画多维列表?
- c++ - 如何检测鼠标光标在窗口之外?
- python - 插入列熊猫中的重复值
- c++ - 无法在 VScode“未定义参考”C++ 中包含 .H 文件
- java - 在更新和删除方法中显示 toast 消息的问题
- python - 如何提取括号内字符串的内容?
- google-chrome - SSRS 2016 在 Chrome 或 Edge 中设置文件夹安全性不起作用
- css - Material ui react 在具有不同css样式的相同输入上设置两个值
- php - 在 laravel 中更改重定向路径
- hadoop - hadoop distcp 相同的子文件夹名称