首页 > 解决方案 > 如何计算 2 个不同 CORPUES 之间的余弦相似度?

问题描述

我正在尝试估计Corpus 中的每个文档i与 Corpus 中的A所有文档之间的余弦相似度B

知道如何有效地做到这一点吗?我正在处理相当大的数据集。

本质上,我想在 Corpus 中获取与 CorpusB中的每个文档最相似A的文档。

标签: pythonnlpnltkspacygensim

解决方案


看看向量空间模型。该文章引用将文档表示为 tf-idf 统计或词频-逆文档频率。这可能有助于嵌入文档,从而可以有效地计算 cosign 相似性。

我将构造一个(不)相似度矩阵,其中每一列对应于与文档在第 0 行处的距离。每一行都可以独立计算。因此,如果您可以并行化计算。


推荐阅读