首页 > 解决方案 > 如何在 HAC 中对某些对象进行聚类,但它们具有相同的余弦相似度值

问题描述

我想将对象 A 与对象 B 或对象 C 聚类。但是对象 B 的余弦相似度对象 A 的值为 0,对象 C 的余弦相似度对象 A 的值为 0。在直接聚类之前,我需要逐个聚类这些对象, 哪个应该首先将对象 A 与 B 或对象 A 与 C 组合?

标签: python-2.7cluster-analysishierarchical-clusteringcosine-similarity

解决方案


使用余弦相似度,您可能希望停在 0...

但当然,任何距离函数也可能出现关系问题。

但显然没有数学答案。他们都一样好。通常,人们希望顺序无关紧要。对于 a 它没有,但对于所有其他它确实如此。不要忘记,HAC 不能保证找到最佳解决方案(单链路除外)。

因此,只需一次选择任何一个,甚至全部。选择第一个找到的是相当普遍的。这允许通过改组数据来获得不同的版本。


推荐阅读