apache-spark - PySpark,如何简单地计算 Kmeans 模型中每个集群的数量?
问题描述
我训练了一个 Kmeans 模型:
kmeans = KMeans(k=20, seed=1)
df.show()
kmeans_model = kmeans.fit(df)
我只想简单地计算每个集群中有多少个元素,但我找不到简单的方法来实现它。
解决方案
检查了 pyspark 文档。这是答案:
summary = kmeans_model.summary
print(summary.clusterSizes)
参考:
http://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.clustering.KMeans
推荐阅读
- c# - 如何在 MS Word 中将图像定位在页面上
- python-3.x - 解码种子文件时出现UnicodeDecodeError
- python - MATLAB 生成的 Python 包与 Ubuntu 上的 PyQt5 冲突 - 可能的库问题
- c - 如何正确制作动态命令行菜单?
- nativescript - iOS webview拒绝连接但Android工作正常
- javascript - 未处理的拒绝(TypeError):尝试在 ReactJS 上使用 Axios 加载 API 数据时无法读取未定义发生的属性“0”
- c# - 为什么编译错误“使用未分配的局部变量”?
- c# - 使用 EF Core Linq2Sql 聚合聚合
- html - 元素聚焦时如何动态更改 sass 属性?
- html - 如何在 VBA 中获取网站页面的标题?