transformer - XLM-RoBERTa 令牌 - id 关系
问题描述
我使用 XLM-RoBERTa 分词器来获取一堆句子的 ID,例如:
["loving is great", "This is another example"]
我看到返回的 ID 并不总是与我的句子中以空格分隔的标记的数量一样多:例如,第一句对应于[[0, 459, 6496, 83, 6782, 2]]
,和。从 ID 中获取词嵌入的矩阵后,我试图仅识别与某些特定标记相对应的词嵌入/向量:有没有办法做到这一点?如果原始令牌有时被分配了多个 ID,并且无法预测,我看不出这是怎么可能的。loving
456
6496
更一般地说,我的任务是获取句子中某些特定标记的词嵌入:因此,我的目标是首先使用句子,以便可以在句法上下文中计算单个标记的词嵌入,但随后我想确定/只保留一些特定标记的向量,而不是句子中所有标记的向量。
解决方案
推荐阅读
- c# - 我可以将奥尔良用于过程中的演员/谷物吗?
- django-models - 在 Django Filter 和 Wagtail 中使用 ModelChoiceFilter 时如何防止重复
- reactjs - 如何使用 jenkins 的 build_number 变量作为 reactjs docker 映像的标签?
- azure-devops - 需要 CI CD 组件信息
- reactjs - 为什么访问 id 在 if 和 else 上的工作方式不同?
- ios - Flutter [iOS] - 创建使用插件的插件
- angular - 类型具有私有属性模拟服务单元测试Angular 7的单独声明
- python - Python请求从按钮获取href url
- python - Python:Numpy将数组的每一行与另一个数组的每一行相乘
- sapui5 - 如何禁用信箱并为宽屏调整 UI5?