k-means - 使用 word2vec 进行文档聚类
问题描述
我正在使用 Word2vec(genism library)进行文档聚类
我正在执行的以下步骤,
- 清理和标记数据,假设我有 50000 个数据
- 使用 word2vec 模型生成文档的向量表示。在这里,对于每个单词,都有一个词嵌入向量。(即 word2vec 模型大小 300)
- 然后通过平均词嵌入 (MOWE) 获得每个文档的词嵌入向量,这意味着通过将文档中的总词数除以文档中每个单词的所有嵌入向量来添加。(整个语料的嵌入向量维度:50000X300)
- 接下来在整个数据集(50000X300)上测量余弦相似度矩阵,得到余弦相似度矩阵(维度 50000X50000)
- 在最后一步,我将这个余弦相似度矩阵发送到 kmeans 算法。在这里,我将 scipy 库用于 kmeans 算法。
我对第 4 步感到困惑。
我的问题是,我需要计算 kmeans 算法的余弦相似度矩阵吗?或者,我可以将整个数据集(50000X300)的嵌入向量提供给 kmeans 算法,而不是余弦相似度?
我应该关注哪一个,为什么?
解决方案
推荐阅读
- sql - 有没有办法比较两个表的纬度/经度
- java - 如何使用 jgrapht 创建子图
- javascript - 如何从 javascript 文件 insize 脚本标签访问变量?
- javascript - GraphQL - “[用户]”类型的字段“x”必须有一个子字段选择。你的意思是“x{ ... }
- sql - SQLPlus 透视日期列
- xml - XSD 将字符串长度限制为两个值之一?
- c# - 获取当前类的变量名
- git - 我无法从存储库历史记录中删除 Git 大文件
- javascript - 在 React 中上传图像时出现内部服务器错误
- c++ - 在 C++ 中处理复合文字的跨平台方法是什么?