首页 > 解决方案 > 如何使用高斯混合模型进行聚类?

问题描述

我一直在使用 k-Means 将数据聚类为 2 个类。但是,现在,我想使用不同的方法并使用高斯混合模型将数据聚类为 2 个类。我已经阅读了 Scikit-Learn 文档和其他 SO 问题,但无法理解如何在我目前的上下文中使用 GMM 进行 2 类聚类。

我可以使用 k-Means 轻松地将数据聚类到 2 个类中,如下所示:-

import pandas as pd
from scipy import stats
from sklearn.cluster import KMeans
import numpy as np

df = pd.read_pickle('my_df.pkl')
clmns = df.columns

df = df.fillna(df.mean())
df.isnull().any

df_tr_std = stats.zscore(df[clmns])

kmeans = KMeans(n_clusters = 2, random_state = 0, n_init = 100, max_iter=500, n_jobs = -1).fit(df_tr_std)
# >>> kmeans
# KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
#     n_clusters=2, n_init=10, n_jobs=None, precompute_distances='auto',
#     random_state=0, tol=0.0001, verbose=0)
labels = kmeans.labels_

我会很感激任何一个线性/短代码段,我可以用它来在我的数据上拟合 GMM 模型(df_tr_std)。我确信这必须是一个相当简单的过程来适应 GMM 模型,但我对如何将我当前的 k-Means 上下文修改为 GMM 模型感到非常困惑。

标签: pythonmachine-learningscikit-learnk-meansgmm

解决方案


考虑以下:

混合高斯

这个方程会给你高斯分布给你的具体情况x和组均值、方差σ2和标准差σ

Z分数会给你在哪里削减类,假设在这一点上的概率为 0.5,从而正确地生成你的不同类。C是类的质心,N例子的数量。

两个高斯

高斯质心


推荐阅读