首页 > 解决方案 > 使用 K-means 对数据集中的热门主题进行聚类

问题描述

我正在尝试使用 K-means 对 twitter 数据进行聚类,以显示数据集中讨论的主要主题。我目前有一个 CSV 文件,该文件已被清理、标记并删除了停用词。

我现在正在尝试通过使用一个简单的 GUI 来应用 k-means,我希望最终将结果可视化,它现在能够运行,但它只创建一个包含“文本”内容的集群。如何创建多重集群?

我的代码:

def k_means_clustering(self):          

            df = pd.read_csv("test_data.csv")

            vectorizer = TfidfVectorizer(stop_words='english')
            X = vectorizer.fit_transform(df)

            true_k = 1 
            model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
            model.fit(X)

我使用这个问题尝试在 Python 中使用 scikit-learn kmeans 应用 K-means 聚类文本文档

标签: pythonk-means

解决方案


改变 的值将改变函数true_k生成的簇数。KMeans


推荐阅读