首页 > 解决方案 > 如何在聚类评估中添加大小偏好?

问题描述

我正在尝试对某些数据应用 k-means(或其他算法)聚类。我希望聚类结果的轮廓分数变得更好,同时我更喜欢更少的聚类。所以我想知道如何用轮廓分数(或其他指标)联合评估集群的数量。

例如,聚类模型得到以下结果:

我认为与其他模型相比,聚类大小为 7 的模型是最好的。虽然最后一个模型的分数是最好的,但是聚类的数量太多了。我曾尝试将轮廓分数与集群大小分开,但它似乎太微不足道了。

标签: algorithmmachine-learningcluster-analysisevaluation

解决方案


不要破解。正确地做。

这意味着从数学上定义你个人认为什么是“好”(当然,为什么提出的方程能很好地捕捉到这一点)。然后使用此评估措施,但要准备好其他人可能不同意您的看法,即许多集群都是坏的。

是的。轮廓除以簇数不是一个好主意。特别是,它不是一个理论上非常有根据的模型,不是吗?


推荐阅读