python - 为什么在 Google Colab 中重新启动运行时后 KMeans 的 silhouette_score 会发生变化?
问题描述
我正在尝试从在 Google Colab 笔记本上运行的 sklearn 的 KMeans 获得可重现的结果。Kmeans 算法适用于由主成分分析 (PCA) 生成的数组。每次我重新启动笔记本的运行时,拟合、预测和生成 K-means 算法的剪影分数时,剪影分数都会发生变化!
这是我运行以使用 Kmeans 进行拟合和预测并生成剪影分数的代码:
for n_clusters in range(3,9):
kmeans = KMeans(init= 'k-means++', n_clusters = n_clusters, n_init= 25, random_state = 0)
kmeans.fit(pca_mat_products)
clusters = kmeans.predict(pca_mat_products)
silhouette_avg = silhouette_score(mp_matrix, clusters, random_state= 0)
print("For n_clusters =", n_clusters, "The average silhouette_score is :", silhouette_avg)
这是生成的剪影分数的示例:
For n_clusters = 3 The average silhouette_score is : 0.08689747798228342
For n_clusters = 4 The average silhouette_score is : 0.11513524544540599
For n_clusters = 5 The average silhouette_score is : 0.13225896257848024
For n_clusters = 6 The average silhouette_score is : 0.13390795741576195
For n_clusters = 7 The average silhouette_score is : 0.11262045164741093
For n_clusters = 8 The average silhouette_score is : 0.12179451798486395
当我重新启动笔记本的运行时同时保持笔记本上的所有内容(包括random_state =0)并从头开始运行单元格时,每次重新启动笔记本时都会出现新的剪影分数。
这是相同代码在不同运行中生成的剪影分数:
For n_clusters = 3 The average silhouette_score is : 0.09181951382862036
For n_clusters = 4 The average silhouette_score is : 0.11539863985647045
For n_clusters = 5 The average silhouette_score is : 0.13363229313208771
For n_clusters = 6 The average silhouette_score is : 0.13428788881085452
For n_clusters = 7 The average silhouette_score is : 0.13187306014661757
For n_clusters = 8 The average silhouette_score is : 0.13252806332855294
在进一步的运行时中, silhouette_scores 不断变化。
mp_matrix是 one-hot 编码数组,如下所示:
array([[0, 0, 0, ..., 0, 1, 0],
[0, 0, 0, ..., 0, 1, 0],
[0, 0, 0, ..., 0, 1, 0],
...,
[0, 0, 0, ..., 0, 0, 0],
[1, 0, 0, ..., 0, 0, 0],
[0, 0, 0, ..., 0, 0, 0]])
在 Google Colab 中重新启动运行时后,剪影分数发生变化是否正常?有没有办法获得可重现的剪影分数?
我在网上和其他地方搜索过,没有发现正在讨论这个问题。
谢谢!
感谢您的帮助。
解决方案
根据您的代码,您似乎正在根据 PCA 的结果进行聚类:
kmeans.fit(pca_mat_products)
clusters = kmeans.predict(pca_mat_products)
如果您需要 PCA 的可重现结果,请在此处设置 random_state。
这里是文档:https ://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
推荐阅读
- excel - 如何使用单元格的值(字符串)作为 Excel 中公式的一部分(不在宏中)?
- php - Facebook Webhook Url 验证在 botman studio 上返回附加字符串
- c# - 在 Xamarin.Forms 应用程序中嵌入 PowerBI 报告
- python - 如何在 PYTHON 中打开文件并使用正则表达式修改其内容以查找/匹配/替换模式
- ruby-on-rails - 对于 CVE-2021-22885,是否只对数组内容有危险?
- javascript - 当 Facebook 列出我的故事的故事查看者数量时,我如何在源代码中查看他们的计数?
- javascript - 无限循环输出数组中的所有值
- redis - 通过`node-redis`关闭Redis服务器的正确方法是什么?
- sql - 查找每个属性值的行数,仅考虑 SQL 中最近的行
- reactjs - React 从同时渲染的另一个元素中获取元素尺寸