cluster-analysis - 聚类评估,考虑聚类的数量
问题描述
我知道如何计算集群的召回率、精度和 F_measure,如本课程所述https://www.coursera.org/learn/cluster-analysis/lecture/BcYhV/6-4-external-measures-1-matching-基于测量
但是,如果我的系统生成的集群数量多于 ground-truth 中的集群数量,我们如何计算这些度量?
似乎对于生成更多集群的系统没有任何惩罚,因为我们只是将地面实况中的每个集群与从我的系统生成的最佳集群进行匹配。我在这里错过了什么吗?
解决方案
不要像分类那样计算它们!!!
要么您需要使用成对的点 - 这是最常见的方法,由非常流行的 ARI 度量使用。
或者您需要找到具有最大重叠的集群,这有时称为“匹配”。我不相信这种方法。
最后但并非最不重要的一点是,您可以使用匈牙利算法找到最佳的部分 1:1 对应关系,并认为不匹配的集群都是错误的。
推荐阅读
- sql - 在我的过程中将两个不同的选择合并到同一个结果表中?
- r - 对于 R eg plot(GumbelDistribution) 中的极端分布
- sql - 获取表的特定行的成本与获取所有行的成本相比如何?
- angular - Angular 9:路由导航参数问题
- vb.net - 打开文件对话框中的有限多选?
- django - Django count manytomany 关系显示错误的数字
- php - Form refreshes before getting data from input
- json - 在 Go 中扁平化 JSON 有困难
- api - 当 API 不支持偏移时如何从偏移中获取结果(HERE Maps API)
- haskell - 定义为“数据 BB a = L | K (BB a) a (BB a) deriving (Show)”的树的 Haskell 预序树遍历