首页 > 解决方案 > 大数据集python中的共识聚类

问题描述

我在这里找到了一个非常好的 Python 共识聚类实现

但是,对于具有大样本量的大型数据集,该算法将不起作用,因为它构建了维度为 [samples, samples] 的矩阵。

大型数据集上的共识聚类是否有任何有效的 python 实现?

标签: pythoncluster-analysisconsensus

解决方案


我面临一个类似的问题,我需要在一个大型数据集上进行共识聚类,这将产生一个 1,000,000 x 1,000,000 的共识矩阵(希望非常稀疏的手指交叉)。虽然我还没有解决这个问题,但我在论文中找到了一些线索:Accelerating high-dimensional clustering with lossless data reduction,他们开发了自己的 R 算法来进行无损数据减少,然后使用 R 包ConsensusClusterPlus。我知道这不是一个真正的答案,并且是在 R 而不是 Python 中实现的,但希望它能像我一样为人们指明正确的方向!

更新

我最终在 python here中实现了本文中描述的共识聚类算法。在一个包含超过 1,000,000 个细胞和大约 50 个特征的数据集上,我能够在几分钟内运行单个聚类算法(例如FastPG),然后将这些结果用作共识聚类算法的输入,该算法也在几分钟内运行。


推荐阅读