首页 > 解决方案 > 如何在大数据上运行层次聚类 hclust?

问题描述

我想在“大”维度矩阵上运行层次聚类,69878 x 10但无法做到,因为hclust在 R 中运行需要首先计算成对距离,这样做会在这些维度上崩溃:

> str(x)
 num [1:69878, 1:10] 0 0 0 0 0 0 0 9 1 0 ...
 - attr(*, "dimnames")=List of 2
  ..$ : NULL
  ..$ : chr [1:10] "0.5" "1" "1.5" "2" ...
> d <- dist(x)  
Error: cannot allocate vector of size 18.2 Gb

有没有办法绕过这个限制?

标签: rbigdatacluster-analysishierarchical-clustering

解决方案


推荐阅读