python - 如何替换 BERT 标记器特殊标记
问题描述
我正在使用 AutoTokenizer -->tokenizer1 = AutoTokenizer.from_pretrained("vinai/bertweet-base", normalization=True)
它比 bert-base-uncased 的标记器更完整。问题是当我标记一些文本时,这个标记器有不同的特殊标记:
special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})>
而 bert-base-uncased 分词器有这些:
tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME, normalization=True)
special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})>
我想替换这些特殊标记以使它们适合 bert-base-uncased,因此它不会引发错误。
解决方案
这主要只是一个字符串替换问题,但有一些复杂性。你的第一组有“bos_token”和“cls_token”都用 表示<s>
,“eos_token”和“sep_token”都用 表示</s>
。你的第二组没有 BOS 和 EOS 概念,所以如果我们做出其他选择,你可以使用这个:
s = s.replace('<s>','[CLS]') \
.replace('</s>','[SEP]') \
.replace('<unk>','[UNK]') \
.replace('<pad>','[PAD]') \
.replace('<mask>','[MASK]')
推荐阅读
- github - GitHub 的 GPG 公钥是什么?
- java-native-interface - JNI 调用 MIP SDK 给出错误 - 无法打开数据库,检查文件夹权限:mip_data\mip\mip.policies.sqlite3
- java - 安卓图标不见了
- java - 在线程数有限的多个线程中读取文件
- firebase-storage - Firebase 云存储安全规则 - 自定义声明太长,因此将它们保存为字符串,但无法提取安全规则
- c# - C# 错误 CS0234 即使在添加 aspnetcore 和扩展包之后
- java - 有 split 功能时为什么要使用 StringTokenizer?
- reactjs - React 路由器没有在 Link 中获取 ID
- c++ - 通过管道将多个字符串发送到子进程
- javascript - 如何使用过滤器javascript删除数组值中的元素