search-engine - 将 TF-IDF 值存储在倒排索引中
问题描述
我正在创建一个搜索引擎来搜索大约 20k 个英语短语的列表,每个短语只有几个单词。
我已经研究了创建搜索引擎的方法,目前我正在使用来自 sklearn 的 TfidfVectorizer 和 Cosine Similarity 来计算排名分数。
根据我对信息检索的了解,您有检索和排名阶段,但是我很困惑如何在使用 TfidfVectorizer 之前使用倒排索引之类的数据结构来加快搜索速度?似乎 TfidfVectorizer 创建了一个与索引不同的术语文档矩阵。您可以将 TF 和 IDF 值存储在倒排索引中并在运行时使用余弦相似度吗?理想情况下,我想要短语的自动完成,所以我还需要存储边缘 ngram,而布尔模型在这里没有用。
解决方案
推荐阅读
- petsc - 与“扩展宏 'CHKERRQ”' 相关的编译错误
- python - 试图在不和谐 python bot 中使用多个 f 字符串不起作用
- java - mockito 测试通知用户某些事件的 void 方法不起作用
- html - 如何用虚线水平分隔两个文本即:text1............text2
- android - BottomNavigationView - Android Studio
- python - 在文件中替换和写入多个数据
- typescript - 如果输入对象具有属性“x”,则将字段“x”添加到类
- c# - C# 控制台应用程序 - 连接到 Oracle 12c
- ibm-cloud - 您好,我目前正在学习 IBM 课程,但我的启用持续交付按钮不起作用。我该怎么办?
- string - 处理字符串格式不加零