首页 > 解决方案 > 如何进行 ANOVA 测试以比较不同聚类算法的性能

问题描述

我正在尝试比较应用于同一数据集的不同聚类算法结果(k-means++ 和层次凝聚聚类)的性能。我总共有 4 个不同的结果(其中 2 个有 KPCA 预处理,其中 2 个没有),这就是为什么我选择 ANOVA 来得出哪个结果最好的原因。

但是,我不知道要进行 ANOVA 测试的输入是什么。谁能建议我应该从算法结果中获取哪些数据来提供输入?(我正在使用 Python 语言和 sci-kit 学习)

标签: machine-learningcluster-analysishierarchical-clusteringanova

解决方案


在这里使用 ANOVA 可能是个坏主意。

由于 k-means 试图最小化集群方差,这将污染基于方差的分析。

https://stats.stackexchange.com/questions/116294/properness-of-anova-after-k-means-cluster-analysis


推荐阅读