首页 > 解决方案 > 当我只有要聚类的变量之间的相似性而不是变量的数据时,如何使用约束 K 均值聚类?

问题描述

我有一个数据电子表格,其中最左边一列的前 12 行按字母顺序(降序)有 12 个名称,最上面一行的前 12 列按字母顺序(从左到右)具有相同的名称。这些姓名代表对某事进行排名的人的姓名,并且此电子表格单元格中的值是最左列中的姓名与与该单元格相邻的最顶行中的姓名之间的肯德尔 Tau 相似系数。如何使用约束 K 均值聚类来查找这些名称之间的相似性?

图片:在此处输入图像描述

标签: algorithmcluster-analysisspreadsheetsimilarity

解决方案


K-mrans 聚类不适用于相似矩阵。

它需要欧几里得空间矢量数据,以计算均值(因此得名)。它不能最大化相似性,但可以最小化坐标差异的平方和。

此外,您的问题是题外话,因为它不是编程问题,但您只想使用现有程序。

由于您的数据非常小,可以放在一个屏幕上,我建议您简单地暴力测试所有可能的解决方案。然后添加您的约束(跳过不符合您的尺寸要求的候选人)是微不足道的。即使没有约束,如果你想要 4 个集群,你的可能性远小于 4^11,即 400 万减去大量冗余排列减去所有那些集群太小或太大的排列。


推荐阅读