nlp - 文档相似度(pyspark)
问题描述
开始一个具有文档相似性的项目。两部分问题。
我首先开始尝试 tf-idf 和余弦相似度。似乎我需要转置 tf-idf 向量,以便我比较文档而不是单词,但在此过程中,我实际上丢失了索引,以便在从 IndexedRowMatrix ->坐标转置 -> 转置时将相似性适用于哪些文档联系起来行矩阵。有人对如何保存此信息有任何想法吗?
我正在尝试从文档集中确定重复的、几乎相同的文档。由于我在两个月内尝试想法的时间有限,我想知道人们是否对最好的追求有意见?我从 LSA、word2vec、bert 和初学者的单词移动距离中听到了各种想法。
解决方案
推荐阅读
- ios - 使用 CATransaction 批量更新 UITableView 期间出现 UITableViewAlertForLayoutOutsideViewHierarchy 错误
- javascript - 两个匿名函数之间的简单“then”承诺
- android - 在 React Native 项目中使用 Typekit (Adobe) 字体?
- swift - 如何处理 SwiftUI 中的重叠视图?
- ubuntu - 通过 Vagrant 和最新软件包安装的 Ubuntu 18.04
- r - 如何在 R 中进行 Ljung-Box 测试?
- javascript - React + Formik:使用嵌套对象的值
- swift - 在 UITableView 中添加一个带有漂亮动画的单元格
- vue.js - Vuetify v-checkbox - 选择没有正确更新
- ruby - 怎么刮