首页 > 解决方案 > XLM-RoBERTa 令牌 - id 关系

问题描述

我使用 XLM-RoBERTa 分词器来获取一堆句子的 ID,例如:

["loving is great", "This is another example"]

我看到返回的 ID 并不总是与我的句子中以空格分隔的标记的数量一样多:例如,第一句对应于[[0, 459, 6496, 83, 6782, 2]],和。从 ID 中获取词嵌入的矩阵后,我试图仅识别与某些特定标记相对应的词嵌入/向量:有没有办法做到这一点?如果原始令牌有时被分配了多个 ID,并且无法预测,我看不出这是怎么可能的。loving4566496

更一般地说,我的任务是获取句子中某些特定标记的词嵌入:因此,我的目标是首先使用句子,以便可以在句法上下文中计算单个标记的词嵌入,但随后我想确定/只保留一些特定标记的向量,而不是句子中所有标记的向量。

标签: transformerroberta-language-model

解决方案



推荐阅读