python - 如何使字节级标记器不拆分令牌?
问题描述
我有带有自定义标记的文本,例如:<adjective>
并且我正在尝试准备一个不会拆分它们的字节级标记器:
tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")
[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]
如何添加<adjective>
不是特殊标记,而是标记器不应该拆分的标记?
解决方案
拥抱脸转换器 API 中标记器的新标记可以添加如下:
tokenizer.add_tokens('<adjective>')
这会将 '' 添加为单个标记。
这也需要更新模型:
model.resize_token_embeddings(len(tokenizer))
推荐阅读
- node.js - 无法读取未定义的属性“名称”:我如何使用 res.locals.users 将用户对象呈现给 ejs 视图
- python - 找不到 [WinError 2] AudioSegment.from_mp3 找不到文件的解决方案
- c++ - Windows 多线程强制线程优先级
- javascript - 悬停在图像上时,仅显示光标所在的部分
- spring-boot - 有没有办法在春季启动测试中从 src/test/resources/application.properties 加载属性?
- python - 我在python的链表中遇到问题
- java - 在 Firebase 中搜索时如何执行 OR 查询?
- javascript - Javascript/html 文件无法在浏览器中正确打开???浏览器只是无限加载(在 safari 和 chrome 上尝试过)
- python - 在将数据添加到包含列表作为其值的字典中时,我以前的所有键都会更新为列表的最新值
- javascript - 从 firebase 读取如何工作?