python - 使用 K-means 对数据集中的热门主题进行聚类
问题描述
我正在尝试使用 K-means 对 twitter 数据进行聚类,以显示数据集中讨论的主要主题。我目前有一个 CSV 文件,该文件已被清理、标记并删除了停用词。
我现在正在尝试通过使用一个简单的 GUI 来应用 k-means,我希望最终将结果可视化,它现在能够运行,但它只创建一个包含“文本”内容的集群。如何创建多重集群?
我的代码:
def k_means_clustering(self):
df = pd.read_csv("test_data.csv")
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(df)
true_k = 1
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)
解决方案
改变 的值将改变函数true_k
生成的簇数。KMeans
推荐阅读
- sql - 列需要根据值进行分隔并对其进行分组
- python - 使用 Tkinter 创建 GUI 以在 pandas 代码中选择 CSV 文件
- javascript - 为什么我的图层控件中没有激活任何选项?
- python - 通过 kwargs 添加功能选项(例如,详细)
- matlab - 在没有 for 循环的情况下更改条形图中的单个条形颜色
- java - 显示整数数组排列的 Java 程序
- javascript - 如何使用 Yarn Workspaces 在 Detox 测试中使用 ES6 导入?
- javascript - 动画比例旋转 svg 元素
- typescript - 如何不必“定义”可选方法参数?
- r - 修改列表中的数据框以具有相同的行数