algorithm - 如何在聚类评估中添加大小偏好?
问题描述
我正在尝试对某些数据应用 k-means(或其他算法)聚类。我希望聚类结果的轮廓分数变得更好,同时我更喜欢更少的聚类。所以我想知道如何用轮廓分数(或其他指标)联合评估集群的数量。
例如,聚类模型得到以下结果:
大小 = 2:分数 = 0.534
大小 = 7:分数 = 0.617
大小 = 20:分数 = 0.689
我认为与其他模型相比,聚类大小为 7 的模型是最好的。虽然最后一个模型的分数是最好的,但是聚类的数量太多了。我曾尝试将轮廓分数与集群大小分开,但它似乎太微不足道了。
解决方案
不要破解。正确地做。
这意味着从数学上定义你个人认为什么是“好”(当然,为什么提出的方程能很好地捕捉到这一点)。然后使用此评估措施,但要准备好其他人可能不同意您的看法,即许多集群都是坏的。
是的。轮廓除以簇数不是一个好主意。特别是,它不是一个理论上非常有根据的模型,不是吗?