首页 > 解决方案 > Pyspark:找到高斯混合模型的最佳 k 值

问题描述

我试图在 pyspark 中找到一种方法来评估我的数据划分为集群的程度。这需要选择多个集群 k,您将在其中将每个观察分类(在这种情况下,属于给定集群的概率)

在传统的 python 中,我使用以下轮廓评分方法来评估 k-medoids 模型。我假设 pyspark 中必须有类似的东西。有人知道吗?谢谢!

range_n_clusters = [12,14,16,18,20,25,30]
score = {}

for n_clusters in range_n_clusters:
  
  clusterer = KMedoids(n_clusters = n_clusters, random_state=10)
  cluster_labels = clusterer.fit_predict(test)
  
  silhouette_avg = silhouette_score(test, cluster_labels)
  score[n_clusters] = silhouette_avg
  
  print(f"Test k = {n_clusters} with result: {silhouette_avg}")

标签: pythonmachine-learningpysparkcluster-analysis

解决方案


推荐阅读