首页 > 解决方案 > 文档相似度(pyspark)

问题描述

开始一个具有文档相似性的项目。两部分问题。

  1. 我首先开始尝试 tf-idf 和余弦相似度。似乎我需要转置 tf-idf 向量,以便我比较文档而不是单词,但在此过程中,我实际上丢失了索引,以便在从 IndexedRowMatrix ->坐标转置 -> 转置时将相似性适用于哪些文档联系起来行矩阵。有人对如何保存此信息有任何想法吗?

  2. 我正在尝试从文档集中确定重复的、几乎相同的文档。由于我在两个月内尝试想法的时间有限,我想知道人们是否对最好的追求有意见?我从 LSA、word2vec、bert 和初学者的单词移动距离中听到了各种想法。

标签: nlp

解决方案


推荐阅读