huggingface-transformers - 为什么用英语训练并应用于孟加拉语的 BPE 编码不返回未知标记？

问题描述

我使用在英语数据上训练的 roberta-base 标记tokenizer = RobertaTokenizerFast.from_pretrained('roberta-base',add_prefix_space=True)器来标记孟加拉语，只是为了看看它的行为。当我尝试对孟加拉语字符进行编码时tokenizer.encode('বা')，我得到[0, 1437, 35861, 11582, 35861, 4726, 2]这意味着它在词汇表中找到了一些与孟加拉语字符匹配的标记，即使是用英语训练也是如此。在进一步探索中，我发现这些都是特殊字符['<s>', 'Ġ', 'à¦', '¬', 'à¦', '¾', '</s>']。我的问题是为什么会发生，当应用于新语言时不应该输出未知标记吗？非常感谢任何帮助

标签： huggingface-transformershuggingface-tokenizersroberta-language-model

huggingface-transformers - 为什么用英语训练并应用于孟加拉语的 BPE 编码不返回未知标记？

问题描述

解决方案

推荐阅读