首页 > 解决方案 > 如何在kmeans中为每个集群制作词云

问题描述

“我尝试使用词云打印每个集群中的数据点,我的数据点是矢量化数据(BOW),如何使用词云打印每个集群中的单词..?”

我已经为 k-means 完成了最佳 k 之后我不知道如何在每个集群中打印单词

kmeanModel_bow = KMeans(n_clusters=2)

谁能帮我解决如何使用词云为每个集群打印单词

标签: pythonmachine-learningdata-sciencek-meansword-cloud

解决方案


为集群中的每个数据点绘制每个单词是不可行的。BOW 将为每个句子创建数千个特征。即使您只有 1000 个数据点(1 个数据点是一个句子),它也会导致为单个集群绘制大约 10 万个单词。我建议为每个集群绘制集群中心。

获取聚类中心的特征:

使用返回 NumPy 数组的 KMeans 函数的cluster_centers_属性。每行将具有对应于每个聚类中心的特征。使用以下代码获取特征词:

Words = np.array_str((np.take(vectorizer.get_feature_names(), featurearray)))

然后,您可以使用 wordcloud 绘制获得的单词。


推荐阅读