machine-learning - 如何进行 ANOVA 测试以比较不同聚类算法的性能

我正在尝试比较应用于同一数据集的不同聚类算法结果（k-means++ 和层次凝聚聚类）的性能。我总共有 4 个不同的结果（其中 2 个有 KPCA 预处理，其中 2 个没有），这就是为什么我选择 ANOVA 来得出哪个结果最好的原因。

但是，我不知道要进行 ANOVA 测试的输入是什么。谁能建议我应该从算法结果中获取哪些数据来提供输入？（我正在使用 Python 语言和 sci-kit 学习）

标签： machine-learningcluster-analysishierarchical-clusteringanova

在这里使用 ANOVA 可能是个坏主意。

由于 k-means 试图最小化集群方差，这将污染基于方差的分析。