首页 > 解决方案 > 模糊搜索名称

问题描述

我有一个 csv 文件,其中有 4 列分别为“学生姓名”、“父亲姓名”、“日期传递”、“录取编号”。csv 文件中有 5 亿行。现在我必须对两列(student_name,father_name')进行模糊搜索并检索其他列(date_of_passing,admission_number),所以输入将是 student_name,father_name。

我花了几个小时在谷歌上寻找解决这个问题,并在 apache solr(underhood-lucene) 上进行模糊匹配。我知道 Apache Solr 是一个基于开源 REST-API 的企业实时搜索引擎。它是一个高性能和全功能的文本搜索引擎库。Lucene 提供强大的功能,如可扩展和高性能的文档索引。我关注了链接

https://mkyong.com/solr/apache-solr-hello-world-example/

安装后我访问了链接

http://localhost:8983/solr/bigboxstore/select?indent=on&q=name:'alaistiar~'&wt=json

这向我展示了结果,根据输入我应该考虑完整的结果集还是应该根据分数限制结果,或者有没有其他方法可以做到这一点?我知道分数是Lucene根据索引统计确定的相对事物。

对于 apache solr 中的模糊搜索,我有以下查询

1 以下网址是否是在使用 Apache solr 的应用程序中实现模糊搜索的正确方法?http://localhost:8983/solr/bigboxstore/select?indent=on&q=name:'alaistiar~'&wt=json

  1. 对于模糊搜索,在 apache solr 中,我应该考虑从第 1 点返回的完整结果集结果,还是应该根据分数限制结果,或者有没有其他方法可以做到这一点?

  2. 如何分别找出 student_name 和 Father_name 的相似性标准(90% 以上)?

标签: javasolrfuzzy-search

解决方案


推荐阅读