首页 > 解决方案 > 标准化会改变聚类模型的结果吗?

问题描述

我有一个点 6147 的数据集,当数据被编码并传递给聚类模型时,它被聚类为 3049 和 3098 的 2 个聚类,但是当相同的数据集在编码后标准化时,聚类变化为 5951 和 196,具有不平衡的性质。编码后标准化后聚类数据的可视化

# Plot the clustered data
fig, ax = plt.subplots(figsize=(6, 6))
plt.scatter(X_std[km.labels_ == 0, 0], X_std[km.labels_ == 0, 1],
            c='green', label='cluster 1')
plt.scatter(X_std[km.labels_ == 1, 0], X_std[km.labels_ == 1, 1],
            c='blue', label='cluster 2')
plt.scatter(centroids[:, 0], centroids[:, 1], marker='*', s=300,
            c='r', label='centroid')
plt.legend()
plt.xlim([-2, 2])
plt.ylim([-2, 2])
plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Visualization of clustered data', fontweight='bold')
ax.set_aspect('equal');

标签: pythoncluster-analysisk-means

解决方案


推荐阅读