首页 > 解决方案 > 聚类评估,考虑聚类的数量

问题描述

我知道如何计算集群的召回率、精度和 F_measure,如本课程所述https://www.coursera.org/learn/cluster-analysis/lecture/BcYhV/6-4-external-measures-1-matching-基于测量

但是,如果我的系统生成的集群数量多于 ground-truth 中的集群数量,我们如何计算这些度量?

似乎对于生成更多集群的系统没有任何惩罚,因为我们只是将地面实况中的每个集群与从我的系统生成的最佳集群进行匹配。我在这里错过了什么吗?

标签: cluster-analysisdata-mining

解决方案


不要像分类那样计算它们!!!

要么您需要使用成对的点 - 这是最常见的方法,由非常流行的 ARI 度量使用。

或者您需要找到具有最大重叠的集群,这有​​时称为“匹配”。我不相信这种方法。

最后但并非最不重要的一点是,您可以使用匈牙利算法找到最佳的部分 1:1 对应关系,并认为不匹配的集群都是错误的。


推荐阅读