java - 模糊搜索名称
问题描述
我有一个 csv 文件,其中有 4 列分别为“学生姓名”、“父亲姓名”、“日期传递”、“录取编号”。csv 文件中有 5 亿行。现在我必须对两列(student_name,father_name')进行模糊搜索并检索其他列(date_of_passing,admission_number),所以输入将是 student_name,father_name。
我花了几个小时在谷歌上寻找解决这个问题,并在 apache solr(underhood-lucene) 上进行模糊匹配。我知道 Apache Solr 是一个基于开源 REST-API 的企业实时搜索引擎。它是一个高性能和全功能的文本搜索引擎库。Lucene 提供强大的功能,如可扩展和高性能的文档索引。我关注了链接
https://mkyong.com/solr/apache-solr-hello-world-example/
安装后我访问了链接
http://localhost:8983/solr/bigboxstore/select?indent=on&q=name:'alaistiar~'&wt=json
这向我展示了结果,根据输入我应该考虑完整的结果集还是应该根据分数限制结果,或者有没有其他方法可以做到这一点?我知道分数是Lucene根据索引统计确定的相对事物。
对于 apache solr 中的模糊搜索,我有以下查询
1 以下网址是否是在使用 Apache solr 的应用程序中实现模糊搜索的正确方法?http://localhost:8983/solr/bigboxstore/select?indent=on&q=name:'alaistiar~'&wt=json
对于模糊搜索,在 apache solr 中,我应该考虑从第 1 点返回的完整结果集结果,还是应该根据分数限制结果,或者有没有其他方法可以做到这一点?
如何分别找出 student_name 和 Father_name 的相似性标准(90% 以上)?
解决方案
推荐阅读
- excel - 运行时错误 1004 应用程序定义或对象定义的细胞计数错误
- java - 即使只有一个编写器线程, volatile 也会有问题
- excel - 连接单元格并删除重复项
- mysql - 支持 CREATE INDEX 查询的 mysql 支持的版本是什么?
- eclipse - eclipse for Spark中的Scala插件问题
- tensorflow - 如何将 tfjs 的 body-pix 模型转换为 keras h5 或 tensorflow 冻结图
- reactjs - fusioncharts 反应错误加载块失败
- java - 如何在 Java 中编写静态递归方法?
- html - Photoshop 字体与浏览器字体系列相比看起来不同
- python - 如何使用 xml.etree 获取元素的 xpath