python - 大数据集python中的共识聚类
问题描述
但是,对于具有大样本量的大型数据集,该算法将不起作用,因为它构建了维度为 [samples, samples] 的矩阵。
大型数据集上的共识聚类是否有任何有效的 python 实现?
解决方案
我面临一个类似的问题,我需要在一个大型数据集上进行共识聚类,这将产生一个 1,000,000 x 1,000,000 的共识矩阵(希望非常稀疏的手指交叉)。虽然我还没有解决这个问题,但我在论文中找到了一些线索:Accelerating high-dimensional clustering with lossless data reduction,他们开发了自己的 R 算法来进行无损数据减少,然后使用 R 包ConsensusClusterPlus。我知道这不是一个真正的答案,并且是在 R 而不是 Python 中实现的,但希望它能像我一样为人们指明正确的方向!
更新
我最终在 python here中实现了本文中描述的共识聚类算法。在一个包含超过 1,000,000 个细胞和大约 50 个特征的数据集上,我能够在几分钟内运行单个聚类算法(例如FastPG),然后将这些结果用作共识聚类算法的输入,该算法也在几分钟内运行。
推荐阅读
- android - 如何修复 android.widget.TextView() 需要 api 21 错误
- objective-c - 用石英 2D 从透明 png 交换 UIImage 上的颜色通道
- julia - 如何在 Julia 的 TimeSeries 中增加价值
- sql - 如何使用输入参数文件路径从 plpgsql 函数中复制
- python - 如何获取包含管道的 Python 子进程命令的输出?
- r - 如何查看并行调整 mlr 的中间结果?
- c++ - 如何在模板函数中根据对象的类型构造不同的对象?
- c# - 将字符串作为参数传递:它是复制还是引用?我很困惑
- r - 为什么 predict.lm 和矩阵乘法给出不同的预测?
- postgresql - 我无法删除 Postgresql 数据库,因为无论如何它总是有活动会话