首页 > 解决方案 > R 中的加权聚类分析——生成的聚类比使用 hclust 请求的要多

问题描述

我正在尝试R使用Weighted Cluster包进行分层凝聚聚类分析。在这样做之前,我通过利用包计算了状态序列之间的距离(请参见此处TraMineR的第 4-6 页)。

按照上面超链接的小插图,我hclust在添加权重向量的同时将距离矩阵输入如下(datadist是距离矩阵;dataframe是我的具有时间序列数据的数据框;weight是全波纵向调查权重):

 Cluster <- hclust(as.dist(datadist), method = "ward", members = dataframe$weight)

然后,在得到一个特定的集群解决方案(四个子组)后,我使用该cutree函数来确定每个集群的相对频率并分配案例:

 subgroups <- cutree(Cluster, k = 4)

但是,在执行上面的代码后,我以某种方式生成了四个以上的组(实际上超过 30 个)。当我删除权重向量时,我能够为四个集群生成频率,但未加权的结果不是最佳的。

如果有人可以帮助我了解发生了什么(以及我如何解决或处理问题),将不胜感激。

标签: rhierarchical-clusteringtraminerhclust

解决方案


推荐阅读