python - OSError:无法加载标记器
问题描述
我想从头开始训练一个 XLNET 语言模型。首先,我训练了一个标记器,如下所示:
from tokenizers import ByteLevelBPETokenizer
# Initialize a tokenizer
tokenizer = ByteLevelBPETokenizer()
# Customize training
tokenizer.train(files='data.txt', min_frequency=2, special_tokens=[ #defualt vocab size
"<s>",
"<pad>",
"</s>",
"<unk>",
"<mask>",
])
tokenizer.save_model("tokenizer model")
最后,我将在给定目录中有两个文件:
merges.txt
vocab.json
我为模型定义了以下配置:
from transformers import XLNetConfig, XLNetModel
config = XLNetConfig()
现在,我想在转换器中重新创建我的标记器:
from transformers import XLNetTokenizerFast
tokenizer = XLNetTokenizerFast.from_pretrained("tokenizer model")
但是,会出现以下错误:
File "dfgd.py", line 8, in <module>
tokenizer = XLNetTokenizerFast.from_pretrained("tokenizer model")
File "C:\Users\DSP\AppData\Roaming\Python\Python37\site-packages\transformers\tokenization_utils_base.py", line 1777, in from_pretrained
raise EnvironmentError(msg)
OSError: Can't load tokenizer for 'tokenizer model'. Make sure that:
- 'tokenizer model' is a correct model identifier listed on 'https://huggingface.co/models'
- or 'tokenizer model' is the correct path to a directory containing relevant tokenizer files
我应该怎么办?
解决方案
代替
tokenizer = XLNetTokenizerFast.from_pretrained("tokenizer model")
你应该写:
from tokenizers.implementations import ByteLevelBPETokenizer
tokenizer = ByteLevelBPETokenizer(
"tokenizer model/vocab.json",
"tokenizer model/merges.txt",
)
推荐阅读
- amazon-cloudformation - 将手动创建的 Cognito 用户池与放大项目一起使用
- vb.net - 如何在 EntityFramework 中更改对象的值,然后再将其显示在网页上?
- plantuml - 在 PlantUML 中垂直对齐包
- reactjs - 使用 initialState 中的对象反应 Redux
- playframework - Flyway迁移不执行脚本:数据库“默认”需要迁移
- ios - appcenter-cli 在使用 appcenter cli 将 ipa 文件上传到 appcenter 时给出“400 错误代码”
- browser - PhpStorm 浏览器按钮自定义 url
- api - 在 Vuejs 中更改 v-model 输入值时动态数据不会更新
- python - Heroku dynos 崩溃
- javascript - 单击并滑动时如何为 td 着色?