python - 使用 PCA (Python) 可视化集群结果
问题描述
我有一个包含 61 行(用户)和 26 列的数据集,我在其上应用了 k-means 和其他算法的聚类。标准化后首先在数据集上应用 KMeans。作为之前的任务,我在对其进行规范化并识别出 10 个集群后对这些数据运行 k-means。同时,我还尝试将这些集群可视化,这就是我使用 PCA 来减少特征数量的原因。
我写了以下代码:
UserID Communication_dur Lifestyle_dur Music & Audio_dur Others_dur Personnalisation_dur Phone_and_SMS_dur Photography_dur Productivity_dur Social_Media_dur System_tools_dur ... Music & Audio_Freq Others_Freq Personnalisation_Freq Phone_and_SMS_Freq Photography_Freq Productivity_Freq Social_Media_Freq System_tools_Freq Video players & Editors_Freq Weather_Freq
1 63 219 9 10 99 42 36 30 76 20 ... 2 1 11 5 3 3 9 1 4 8
2 9 0 0 6 78 0 32 4 15 3 ... 0 2 4 0 2 1 2 1 0 0
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(3)
pca.fit(X)
pca_data = pd.DataFrame(pca.transform(X))
print(pca_data.head())
给出以下结果:
0 1 2
0 8 -4 5
1 -2 -2 1
2 1 1 -0
3 2 -1 1
4 3 -1 -3
我想通过使用 PCA 显示我的数据集的图(集群)并解释结果?我在这个领域真的很新,建议将不胜感激!
再次提前致谢。
解决方案
使用示例数据集:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)
执行缩放、PCA 并将 PC 分数放入数据框中:
Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2)
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2'])
执行 kmeans 并将标签放入数据框中,您已经可以使用 seaborn 绘制它:
kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)
或matplotlib:
fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
loc="upper left", title="")
ax.add_artist(legend1)
推荐阅读
- r - 为不同的热图保持热图颜色范围相同
- c++ - 限制 Concurrency::parallel_for 中使用的线程数
- http - 如何阻止 ReverseProxy 代理请求
- android - 实施 Kapt 在自动生成的改造文件中导致构建错误
- c# - Swagger (Swashbuckle) - 如何在端点下添加文本
- python - 在 Python 中编写一个“棋盘”函数,打印出请求的二进制长度
- python-3.x - 不能多次滚动一个 div | 硒 | Python
- c# - NUnit3TestExecutor 使用当前发现模式发现了 1 个 NUnit 测试用例中的 0 个,显式运行
- android - 拥有 ContentProvider 的进程中的异常崩溃使用 ContentProvider 的进程
- vba - 为什么我需要在使用之前激活工作表