首页 > 解决方案 > 如何确定 R 中分类数据的聚类方法?

问题描述

我正在尝试对混合数据(人口统计变量+李克特从 1 到 10 的偏好)进行聚类分析。我正在尝试使用函数 daisy() 对混合数据应用层次聚类,但是当我计算拟合优度 - 共生相关性时,得分为 0.60,这不是很高。

我怎样才能提高合身度?分层方法是否适合此数据?李克特量表数据应该被视为因素还是数字?另外,在调用-hclust(seg.dist, method="complete")时,这个方法适合我的数据吗?

我也尝试了潜在类分析,但结果并不有趣(除非我做错了)

seg.dist <- daisy(EUR_data)
as.matrix(seg.dist)
seg.hc <- hclust(seg.dist, method="complete")

计算共生相关性:

cor(cophenetic(seg.hc), seg.dist)

标签: cluster-analysiscategorical-datahierarchical-clusteringlikertr-daisy

解决方案


改进数据的预处理。

有些属性会比其他属性更重要。

李克特属性通常也不能被视为区间量表,因为由于文化原因,人们不太可能给出 7 而不是 6 或 8:7 是运气不好。

聚类只会与您的距离一样好,因此请改进您的预处理和距离计算!


推荐阅读