首页 > 解决方案 > 在 Lucene 中使用向量空间模型而不是 BM25

问题描述

如何更改 Lucene 中的评分并使用向量空间模型而不是 BM25?

标签: javasolrlucene

解决方案


您可以通过使用IndexWriterConfig.setSimilarityIndexSearcher.setSimilarity设置相似度来更改用于对文档进行评分的算法。请注意,您在编写和搜索时应该使用相同的相似性实现,并且通常需要在您想要尝试不同的相似性时重新索引。

有许多开箱即用的相似性实现。

Lucene 的旧默认相似性是ClassicSimilarity,它是一个 TFIDF(即 VSM)实现,如此所述。

但是,它不会根据您的评论完成您正在寻找的内容。它也不会为您提供一种有意义的方式来标准化分数,或建立有用的阈值,并且分数没有上限。


推荐阅读