python - 获得 model.docvecs.similarity_unseen_docs(document_1, document_2) 的负分
问题描述
我试图找出 2 个文档之间的相似性,即“document_1”和“document_2”。我正在使用Doc2Vec Gensim 的keyedvectors.py来查找相似度分数。
score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2)
print(score)
分数为负的地方。
这里 document_1 和 document_2 是NLTK 的 word_tokenize() 的结果
当我们试图找到两个“标记化”文档之间的相似性时,负分意味着什么?
PS:在 10 个文档(每个 2 页)=20 页 MS word 文档上训练模型。
解决方案
如果它使用余弦相似度,则范围为 [-1, 1]。" 因此判断方向而不是大小:方向相同的两个向量的余弦相似度为 1,90° 的两个向量的相似度为 0,截然相反的两个向量的相似度为 -1,与他们的规模
推荐阅读
- javascript - Chartist.js 带有圆角/边缘的堆积条形图
- mysql - 混合变量分配和数据检索 - MySQL 与 MS SQL Server
- android - 如何在android上的本机库中跟踪执行路径?
- excel - 同时更新Excel VBA for循环中的两个变量
- c# - 如何在 ASP.NET Core 的 HTTP GET 请求中使用 ValidateAntiForgeryToken?
- python - Itertools 与 Python 组合内存错误
- c# - 使用 SQL Server 数据库运行 ASP.NET MVC 应用程序
- php - PHP合并两个数组并组合两者的不同值,数组合并不起作用
- javascript - 如何将数据绑定到 React Leaflet 中的标记单击?
- r - 如何在 R 中减去两个每周日期?