首页 > 解决方案 > R中的聚类变量和内存使用

问题描述

我正在尝试使用集群库计算 R 中某些变量的集群。代码如下:

d2 <- dist(ant, method = "euclidian")

问题是显示此消息:

Error: cannot allocate vector of size 123.5 Gb

不可能有这么大的内存。我的数据框有超过 180000 行和 12 列。有什么建议吗?

标签: rcluster-analysisk-meanshierarchical-clustering

解决方案


  1. 选择一种不需要成对距离矩阵的方法,这总是需要 O(n²) 内存......这样的算法存在多种。

  2. 首先简化您的数据。例如,将重复项合并为权重,并使用支持加权点的算法/实现。

  3. 子样本。如果你有这么多点,你可能不需要全部。而是使用子样本。


推荐阅读