首页 > 解决方案 > 使用 word2vec 进行文档聚类

问题描述

我正在使用 Word2vec(genism library)进行文档聚类

我正在执行的以下步骤,

  1. 清理和标记数据,假设我有 50000 个数据
  2. 使用 word2vec 模型生成文档的向量表示。在这里,对于每个单词,都有一个词嵌入向量。(即 word2vec 模型大小 300)
  3. 然后通过平均词嵌入 (MOWE) 获得每个文档的词嵌入向量,这意味着通过将文档中的总词数除以文档中每个单词的所有嵌入向量来添加。(整个语料的嵌入向量维度:50000X300)
  4. 接下来在整个数据集(50000X300)上测量余弦相似度矩阵,得到余弦相似度矩阵(维度 50000X50000)
  5. 在最后一步,我将这个余弦相似度矩阵发送到 kmeans 算法。在这里,我将 scipy 库用于 kmeans 算法。

我对第 4 步感到困惑。

我的问题是,我需要计算 kmeans 算法的余弦相似度矩阵吗?或者,我可以将整个数据集(50000X300)的嵌入向量提供给 kmeans 算法,而不是余弦相似度?

我应该关注哪一个,为什么?

标签: k-meansword2vecword-embedding

解决方案


推荐阅读