machine-learning - 寻找一种将专有名词映射到向量的方法
问题描述
我正在寻找一种将专有名词表示为向量并纠正拼写错误的方法。
例如,我有一个专有名词数据库(例如 James、Rebecca、Michael 等),并希望将这些名称映射到向量中。
我还有一组这些名称拼写错误的条目(例如 Rebeca、Mikel 等),并且还想将它们映射到向量中。
目标是使用拼写错误名称的向量与正确拼写名称的每个向量之间的相似性度量,并识别正确的名称。
我找不到任何处理此类问题的 NLP 方法。
谢谢!
解决方案
所以目标是拼写纠正?你没有上下文,只有单词?我建议使用 kmer 距离。也就是说,对于合适的k值,每个词都由长度为k的子串集合表示。单词之间的距离是 sqrt(1-J),其中 J 是这些集合的Jaccard 相似度。构建单词的最近邻树。然后建议的更正是拼写错误单词的最近邻。
您应该通过实验为 k 选择值,但 {3,4,5} 将是一个很好的起点。
有公式 sqrt(1-J) 的替代方案,但该公式的优点是它是由 Jaccard 相似性引起的 RKHS 的自然度量。
推荐阅读
- excel - 选择要复制和粘贴的特定列?
- javascript - 动态突出显示文本
- 基于选中的复选框
- javascript - agGrid 汇总示例显示缺少 ClientSideRowModelModule
- python - 在可执行文件中读取带有熊猫的csv文件的问题
- bluetooth - 在 Opera 上调用 navigator.bluetooth.requestDevice 时出现“Web Bluetooth API global disabled”错误
- laravel-5.6 - 在 laravel 中将文件从一个文件夹复制到另一个文件夹会导致错误 File not found
- algorithm - 小循环的大 O
- angular - Angular 的 reportProgress 和 PHP。一个请求,多个响应。可能吗?
- c++11 - c ++从内存中获取值一个进程
- reactjs - 如何使用 Nextjs 中的链接获取数据