首页 > 解决方案 > 获得 model.docvecs.similarity_unseen_docs(document_1, document_2) 的负分

问题描述

我试图找出 2 个文档之间的相似性,即“document_1”和“document_2”。我正在使用Doc2Vec Gensim 的keyedvectors.py来查找相似度分数。

score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2)
print(score)

分数为负的地方。

这里 document_1 和 document_2 是NLTK 的 word_tokenize() 的结果

当我们试图找到两个“标记化”文档之间的相似性时,负分意味着什么?

PS:在 10 个文档(每个 2 页)=20 页 MS word 文档上训练模型。

标签: pythonnlpnltkgensim

解决方案


如果它使用余弦相似度,则范围为 [-1, 1]。" 因此判断方向而不是大小:方向相同的两个向量的余弦相似度为 1,90° 的两个向量的相似度为 0,截然相反的两个向量的相似度为 -1,与他们的规模


推荐阅读