python - Pyspark:找到高斯混合模型的最佳 k 值
问题描述
我试图在 pyspark 中找到一种方法来评估我的数据划分为集群的程度。这需要选择多个集群 k,您将在其中将每个观察分类(在这种情况下,属于给定集群的概率)
在传统的 python 中,我使用以下轮廓评分方法来评估 k-medoids 模型。我假设 pyspark 中必须有类似的东西。有人知道吗?谢谢!
range_n_clusters = [12,14,16,18,20,25,30]
score = {}
for n_clusters in range_n_clusters:
clusterer = KMedoids(n_clusters = n_clusters, random_state=10)
cluster_labels = clusterer.fit_predict(test)
silhouette_avg = silhouette_score(test, cluster_labels)
score[n_clusters] = silhouette_avg
print(f"Test k = {n_clusters} with result: {silhouette_avg}")
解决方案
推荐阅读
- svg - SVG Chrome 渲染错误与组变换中的主导 Baseling
- ajax - Laravel 中的“App\User 类的对象无法转换为 int”错误
- swift - 不断从云存储中读取坐标并随着坐标的变化更新地图上的点 - Swift,apple mapkit
- python - 如何从保存的模型中导出 RT 图
- java - 如何从静态方法打开一个新窗口 - JavaFX
- regex - 用于验证手机号码的 Flutter 正则表达式
- matlab - 状态空间灰盒参数估计
- javascript - 使用 Promisify 从回调转换为 Async-Await 格式后,AWS S3 上传不起作用
- java - 如何在 java 类中创建 JAR 文件
- python - 是否可以将 xml 文件转换为 pandas 中的数据框?