python - 我需要为我的数据集实现肘法以找到 k-means 聚类所需的最佳聚类
问题描述
我的主要目标是从语料库中计算关键字的 tf-idf 值,并对在我的语料库上应用 sklearn TF-IDF 矢量化器后得到的矩阵执行 k-means 聚类。在此处输入图像描述 这是我计算 tf-idf 的方法 在此处输入图像描述 结果,我得到了这个矩阵。 在此处输入图像描述 matrix.shape =(11318,187)
现在我想对 tf-idf 矩阵执行肘部方法,以获得我的数据语料库所需的最佳集群数量,但我不确定如何实现。这是我迄今为止为肘部方法实施的。 在此处输入图像描述我想找到聚类的数量,然后执行 k-means 聚类。我的最终目标是从巨大的文章中做一个句子聚类,并从每个句子聚类中找到前 10 个关键词。例如集群1:sentence1、sentence6、sentence 7..等前10个关键词:集群2:sentence70、sentence80、sentence4...等前10个关键词:. . . 集群 k:sentence75,sentence67,..... 和儿子在 Top 10 关键字:
你能告诉我我需要改变什么来计算数据集的集群数量吗?
解决方案
推荐阅读
- ios - UITextView 中的控制行间距
- tfs - 如何将自定义状态值添加到 Team Foundation Server 2018
- mysql - 使用 XAMPP/MariaDB (MySQL) 的 DECLARE 变量问题
- oracle - Oracle 18c 外部表从 UNC 路径导入 csv 文件
- vba - 运行时错误“1004”:您无法在此处跳过,因为复制区域和过去区域的大小不同
- php - TinyMce 不存储 html,只存储原始文本(laravel)
- elasticsearch - 无法使用弹性搜索接收器连接器(kafka-connect)
- c - 用于计算 C 中数字平方根的指针和函数
- php - 如何在codeigniter中存储会话终身?
- java - Java Web Start Swing App如何显示servlet信息?