algorithm - 如何获得两种不同标记化的对齐方式?(例如 BERT 与 spaCy)
问题描述
对于文本“我会去那里”,我有两个标记化,如下所示:
a == ["I", "'ll", "go", "there"]
b == ["I'll", "go", "there"]
我怎样才能有效地获得以下对齐?
a2b == [[0], [0], [1], [2]]
b2a == [[0, 1], [2], [3]]
此外,如果两个标记化的归一化方式不同,是否有有效的方法来获得对齐?“两个标记化的标准化方式不同”意味着,例如:
a == ["à", "la", "gorge"]
b == ["a", "la", "gorge"] # dropped accent
我想要以下对齐结果:
a2b == [[0], [1], [2]]
b2a == [[0], [1], [2]]
解决方案
推荐阅读
- javascript - 用纯 Javascript 遍历多维数组
- python - Django Rest 框架返回字典而不是 OrderedDicts
- django - Pyinstaller 在 Django 静态 javascript 文件上编译但出现 404 错误
- go - golang 在 1 秒内每 1 毫秒执行一次函数(每秒 1000 次调用)
- rest - SprintBoot 内容类型为空
- angular - 如何以角度在组件之间传递选择器或html标签
- vba - 比较 2 个单元格,然后比较下面的 2 个单元格
- mongodb - 如果根 C 上已经存在数据文件夹怎么办
- google-vr - Google vr 视图使用点击热点更改内容
- php - 测试 PHP POST 空值 - 意外结果 - 我错过了什么?