首页 > 解决方案 > 为什么用英语训练并应用于孟加拉语的 BPE 编码不返回未知标记?

问题描述

我使用在英语数据上训练的 roberta-base 标记tokenizer = RobertaTokenizerFast.from_pretrained('roberta-base',add_prefix_space=True)器来标记孟加拉语,只是为了看看它的行为。当我尝试对孟加拉语字符进行编码时tokenizer.encode('বা'),我得到[0, 1437, 35861, 11582, 35861, 4726, 2]这意味着它在词汇表中找到了一些与孟加拉语字符匹配的标记,即使是用英语训练也是如此。在进一步探索中,我发现这些都是特殊字符['<s>', 'Ġ', 'à¦', '¬', 'à¦', '¾', '</s>']。我的问题是为什么会发生,当应用于新语言时不应该输出未知标记吗?非常感谢任何帮助

标签: huggingface-transformershuggingface-tokenizersroberta-language-model

解决方案



推荐阅读