python - 如何在kmeans中为每个集群制作词云
问题描述
“我尝试使用词云打印每个集群中的数据点,我的数据点是矢量化数据(BOW),如何使用词云打印每个集群中的单词..?”
我已经为 k-means 完成了最佳 k 之后我不知道如何在每个集群中打印单词
kmeanModel_bow = KMeans(n_clusters=2)
谁能帮我解决如何使用词云为每个集群打印单词
解决方案
为集群中的每个数据点绘制每个单词是不可行的。BOW 将为每个句子创建数千个特征。即使您只有 1000 个数据点(1 个数据点是一个句子),它也会导致为单个集群绘制大约 10 万个单词。我建议为每个集群绘制集群中心。
获取聚类中心的特征:
使用返回 NumPy 数组的 KMeans 函数的cluster_centers_属性。每行将具有对应于每个聚类中心的特征。使用以下代码获取特征词:
Words = np.array_str((np.take(vectorizer.get_feature_names(), featurearray)))
然后,您可以使用 wordcloud 绘制获得的单词。
推荐阅读
- azure - Azure AKS 限制使用特定 IP
- java - 这个 java 程序的输出是如何产生的?
- ms-word - 将纯文本参考书目转换为 medley 或类似的
- asp.net-core - 如何在 CodeBuild 中更新 nswag 文档
- javascript - 如何将 pygame 游戏集成到烧瓶 webapp 中?
- django - 如何使用 django docker nginx 和 postgresql 使静态文件工作,因为它不为它们提供服务
- jenkins - 无法使用 jenkins 在 GITHUB 中运行 java 文件
- python - 发票模板:仅当任何项目有折扣时才呈现 html 表“折扣”列
- javascript - 使用相同子组件的两条不同路线正在以不同的方式评估数据
- reactjs - 警告:在 ResizeObserver 中找到多个具有 `children` 的子节点。只会观察第一个