huggingface-transformers - 为什么用英语训练并应用于孟加拉语的 BPE 编码不返回未知标记?
问题描述
我使用在英语数据上训练的 roberta-base 标记tokenizer = RobertaTokenizerFast.from_pretrained('roberta-base',add_prefix_space=True)
器来标记孟加拉语,只是为了看看它的行为。当我尝试对孟加拉语字符进行编码时tokenizer.encode('বা')
,我得到[0, 1437, 35861, 11582, 35861, 4726, 2]
这意味着它在词汇表中找到了一些与孟加拉语字符匹配的标记,即使是用英语训练也是如此。在进一步探索中,我发现这些都是特殊字符['<s>', 'Ġ', 'à¦', '¬', 'à¦', '¾', '</s>']
。我的问题是为什么会发生,当应用于新语言时不应该输出未知标记吗?非常感谢任何帮助
解决方案
推荐阅读
- android - 我实现了 VirtualAPK 库并让任务 ':app:compileDebugJavaWithJavac' 的执行失败
- javascript - 使用 PHP (in_array) 检查值是否存在于数组中
- python - python程序中的Prolog查询未返回正确答案
- mysql - 我需要帮助加入两个查询以获得一个表作为结果
- c# - 即使服务器端允许本地地址,CORS 也会阻止访问
- c# - 为什么 IP 地址返回值 127.0.0.1?
- ios - UIImage 在屏幕/窗口/超级视图上的位置
- javascript - 关闭总是需要在 IIFE 中吗?
- php - 使用 HTTP POST REQUEST 将数据从 ESP8266 发送到 Live Server 的问题
- android - 如何忽略 NFC 意图(使手机不振动)?