cluster-analysis - 如何确定 R 中分类数据的聚类方法?
问题描述
我正在尝试对混合数据(人口统计变量+李克特从 1 到 10 的偏好)进行聚类分析。我正在尝试使用函数 daisy() 对混合数据应用层次聚类,但是当我计算拟合优度 - 共生相关性时,得分为 0.60,这不是很高。
我怎样才能提高合身度?分层方法是否适合此数据?李克特量表数据应该被视为因素还是数字?另外,在调用-hclust(seg.dist, method="complete")时,这个方法适合我的数据吗?
我也尝试了潜在类分析,但结果并不有趣(除非我做错了)
seg.dist <- daisy(EUR_data)
as.matrix(seg.dist)
seg.hc <- hclust(seg.dist, method="complete")
计算共生相关性:
cor(cophenetic(seg.hc), seg.dist)
解决方案
改进数据的预处理。
有些属性会比其他属性更重要。
李克特属性通常也不能被视为区间量表,因为由于文化原因,人们不太可能给出 7 而不是 6 或 8:7 是运气不好。
聚类只会与您的距离一样好,因此请改进您的预处理和距离计算!
推荐阅读
- android - Kotlin 中是否有条件 try 语句,就像在 Swift 中一样?
- javascript - 触摸屏不支持点击事件
- android - 房间何时从数据库中删除实体?
- r - vapply 和矩阵;返校问题
- python - 循环连接两个文件以创建新文件?
- php - 如何打印表格的所有结果而不需要逐个变量打印?
- html - 如何在 Expressjs 中使用 GET 方法
- javascript - 带有加载按钮的网页抓取动态网页
- python-3.x - 通过使用 YAML、python、html、css,我们不能在不使用 NLP 的情况下创建标准聊天机器人吗?
- python - 继承视图的问题 - Odoo [v13] 模块