r - R 中的加权聚类分析——生成的聚类比使用 hclust 请求的要多
问题描述
我正在尝试R
使用Weighted Cluster
包进行分层凝聚聚类分析。在这样做之前,我通过利用包计算了状态序列之间的距离(请参见此处TraMineR
的第 4-6 页)。
按照上面超链接的小插图,我hclust
在添加权重向量的同时将距离矩阵输入如下(datadist是距离矩阵;dataframe是我的具有时间序列数据的数据框;weight是全波纵向调查权重):
Cluster <- hclust(as.dist(datadist), method = "ward", members = dataframe$weight)
然后,在得到一个特定的集群解决方案(四个子组)后,我使用该cutree
函数来确定每个集群的相对频率并分配案例:
subgroups <- cutree(Cluster, k = 4)
但是,在执行上面的代码后,我以某种方式生成了四个以上的组(实际上超过 30 个)。当我删除权重向量时,我能够为四个集群生成频率,但未加权的结果不是最佳的。
如果有人可以帮助我了解发生了什么(以及我如何解决或处理问题),将不胜感激。
解决方案
推荐阅读
- sql-server - SQL 大容量复制,但重建索引耗时过长
- excel - 打开工作簿时自动运行宏
- netlogo - 强制 NetLogo Behaviorspace 从特定的 behaviorspace-run-number 开始运行
- ios - 如何从 webView 解析数据以在代码中使用
- scala - 如何在 spark 中执行,即迭代组并将每个组一次保存为文件?
- logging - 通过 WAS 控制台更改 Log4j 记录器级别
- batch-file - 根据部分文件名批量创建文件夹,不保留扩展名
- unity3d - 如何从一侧相对于另一侧统一旋转和移动圆柱形杆?
- sql-server - 将 CSV 文件数据导入 SQL Server
- php - 如何在浏览器上实时打印传入的 webhook 数据?