nlp - 在 BertTokenizerFast 中加载自我训练的 tokenzier 失败
问题描述
我训练了一个标记器,如下所示,
tokenizer = ByteLevelBPETokenizer()
tokenizer.train(files=paths, vocab_size=20_000, min_frequency=2,
special_tokens=["<s>","<pad>","</s>","<unk>","<mask>"])
tokenizer.save_model('bert_a_tokenizer')
然后我尝试加载它:
tokenizer = BertTokenizerFast.from_pretrained("./bert_a_tokenizer", max_len=512)
它失败了,但如果我使用它会起作用:
tokenizer = RobertaTokenizerFast.from_preenter code heretrained("./bert_a_tokenizer", max_len=512)
我不完全理解这里发生了什么。
解决方案
推荐阅读
- php - 使用 ajax 设置 Code Igniter 会话(是否可以在不使用警报的情况下设置它?)
- windows - 加载dll失败。找不到指定的模块
- javascript - 为什么 Javascript 中不经常使用链表
- c - c munmap_chunk:使用free() 时指针无效或--如何检查指针是否指向某物?
- php - Laravel 6:调用未定义的方法 App\\User::createToken()
- python-3.x - 从使用 Keras 和 Theano 的预训练模型获取中间层激活数组时遇到的问题?
- c++ - 为什么 main 函数不能返回负数?
- linux - 通过在我的 Linux 终端中运行脚本来初始化 PySpark shell(Spark 版本 2.4.4)
- regex - 应该包含括号的正则表达式会在 Sublime Text 中排除它们
- python - 如何用python将图片划分为等间距的正方形?