首页 > 解决方案 > 寻找一种将专有名词映射到向量的方法

问题描述

我正在寻找一种将专有名词表示为向量并纠正拼写错误的方法。

例如,我有一个专有名词数据库(例如 James、Rebecca、Michael 等),并希望将这些名称映射到向量中。

我还有一组这些名称拼写错误的条目(例如 Rebeca、Mikel 等),并且还想将它们映射到向量中。

目标是使用拼写错误名称的向量与正确拼写名称的每个向量之间的相似性度量,并识别正确的名称。

我找不到任何处理此类问题的 NLP 方法。

谢谢!

标签: machine-learningnlpsimilarity

解决方案


所以目标是拼写纠正?你没有上下文,只有单词?我建议使用 kmer 距离。也就是说,对于合适的k值,每个词都由长度为k的子串集合表示。单词之间的距离是 sqrt(1-J),其中 J 是这些集合的Jaccard 相似度。构建单词的最近邻树。然后建议的更正是拼写错误单词的最近邻。

您应该通过实验为 k 选择值,但 {3,4,5} 将是一个很好的起点。

有公式 sqrt(1-J) 的替代方案,但该公式的优点是它是由 Jaccard 相似性引起的 RKHS 的自然度量。


推荐阅读