首页 > 解决方案 > 我需要为我的数据集实现肘法以找到 k-means 聚类所需的最佳聚类

问题描述

我的主要目标是从语料库中计算关键字的 tf-idf 值,并对在我的语料库上应用 sklearn TF-IDF 矢量化器后得到的矩阵执行 k-means 聚类。在此处输入图像描述 这是我计算 tf-idf 的方法 在此处输入图像描述 结果,我得到了这个矩阵。 在此处输入图像描述 matrix.shape =(11318,187)

现在我想对 tf-idf 矩阵执行肘部方法,以获得我的数据语料库所需的最佳集群数量,但我不确定如何实现。这是我迄今为止为肘部方法实施的。 在此处输入图像描述我想找到聚类的数量,然后执行 k-means 聚类。我的最终目标是从巨大的文章中做一个句子聚类,并从每个句子聚类中找到前 10 个关键词。例如集群1:sentence1、sentence6、sentence 7..等前10个关键词:集群2:sentence70、sentence80、sentence4...等前10个关键词:. . . 集群 k:sentence75,sentence67,..... 和儿子在 Top 10 关键字:

你能告诉我我需要改变什么来计算数据集的集群数量吗?

标签: pythonk-meanstfidfvectorizer

解决方案


推荐阅读