首页 > 解决方案 > 如何使字节级标记器不拆分令牌?

问题描述

我有带有自定义标记的文本,例如:<adjective>并且我正在尝试准备一个不会拆分它们的字节级标记器:

tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")

[('Ġ<', (0, 2)), ('adjective', (2, 11)), ('>', (11, 12)]

如何添加<adjective>不是特殊标记,而是标记器不应该拆分的标记?

标签: pythonhuggingface-tokenizers

解决方案


拥抱脸转换器 API 中标记器的新标记可以添加如下:

tokenizer.add_tokens('<adjective>')

这会将 '' 添加为单个标记。

这也需要更新模型:

model.resize_token_embeddings(len(tokenizer))


推荐阅读