首页 > 解决方案 > 如何在一串可能拼错的单词中搜索单词

问题描述

我正在寻找 SAS 数据集中的特定雇主。数据集没有经过拼写检查,所以如果我正在寻找 Univ,它可以输入为 Unversity, University, Univercity ...

我试过扫描,计算匹配的字母,“包含”。这些是工作,但我仍然缺少一些。

过程 sql; 创建表SpecificEmployers as select *,如果雇主包含'Univ'然后'Y'否则'N'结束作为来自AllEmployers的Emp;退出;

标签: sas

解决方案


您应该研究一些编辑距离函数:

http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/default/viewer.htm#a002206133.htm

http://support.sas.com/documentation/cdl/en/lrdict/64316/HTML/default/viewer.htm#a002206137.htm

一种方法是遍历雇主名称中的每个单词,并查看与字符串相比是否有任何单个单词的编辑距离低于某个阈值university


推荐阅读