r - 对大向量进行子集化会使用不必要的大量内存
问题描述
我有一个很大的原始向量,例如:
x <- rep(as.raw(1:10), 4e8) # this vector is about 4 GB
我只想删除第一个元素,但无论我做什么,它都会使用大量内存。
> x <- tail(x, length(x)-1)
Error: cannot allocate vector of size 29.8 Gb
> x <- x[-1L]
Error: cannot allocate vector of size 29.8 Gb
> x <- x[seq(2, length(x)-1)]
Error: cannot allocate vector of size 29.8 Gb
这是怎么回事?这么简单的操作真的要靠C来做吗?(我知道使用 Rcpp 很简单,但这不是重点)。
会话信息:
R version 3.6.1 (2019-07-05)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 16.04.6 LTS
Matrix products: default
BLAS: /usr/lib/libblas/libblas.so.3.6.0
LAPACK: /usr/lib/lapack/liblapack.so.3.6.0
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C
[3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8
[7] LC_PAPER=en_US.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] dplyr_0.8.3
loaded via a namespace (and not attached):
[1] tidyselect_0.2.5 compiler_3.6.1 magrittr_1.5 assertthat_0.2.1
[5] R6_2.4.0 pillar_1.4.2 glue_1.3.1 tibble_2.1.3
[9] crayon_1.3.4 Rcpp_1.0.2 pkgconfig_2.0.2 rlang_0.4.0
[13] purrr_0.3.2
@jangoreki 要求的 Rcpp 解决方案:
#include <Rcpp.h>
using namespace Rcpp;
// solution for the original question
// [[Rcpp::export]]
IntegerVector popBeginningOfVector(IntegerVector x, int npop) {
return IntegerVector(x.begin() + npop, x.end());
}
// generic negative indexing
// [[Rcpp::export]]
IntegerVector efficientNegativeIndexing(IntegerVector x, IntegerVector neg_idx) {
std::sort(neg_idx.begin(), neg_idx.end());
size_t ni_size = neg_idx.size();
size_t xsize = x.size();
int * xptr = INTEGER(x);
int * niptr = INTEGER(neg_idx);
size_t xtposition = 0;
IntegerVector xt(xsize - ni_size); // allocate new vector of the correct size
int * xtptr = INTEGER(xt);
int range_begin, range_end;
for(size_t i=0; i < ni_size; ++i) {
if(i == 0) {
range_begin = 0;
} else {
range_begin = neg_idx[i-1];
}
range_end = neg_idx[i] - 1;
// std::cout << range_begin << " " << range_end << std::endl;
std::copy(xptr+range_begin, xptr+range_end, xtptr+xtposition);
xtposition += range_end - range_begin;
}
std::copy(xptr+range_end+1, xptr + xsize, xtptr+xtposition);
return xt;
}
解决方案
问题是进行子集化的代码分配了一个与您想要的元素相对应的索引向量。对于您的示例,这就是 vector 2:4e9
。
R 的最新版本可以非常紧凑地存储此类向量(仅是第一个和最后一个元素),但是执行子集的代码并没有这样做,因此它需要存储所有 4e9-1 值。
每个整数将使用 4 个字节,但 4e9 太大而不能成为整数,因此 R 将所有这些值存储为 8 字节双精度。根据pryr::object_size(2:4e9)
. 那是 29.8 Gb。
为了解决这个问题,您需要对 中的子集代码 https://svn.r-project.org/R/trunk/src/main/subset.c
和https://svn.r-project.org/R/trunk/src/main/subscript.c
.
由于这是一个如此特殊的案例,而替代方案(全部用 C 或 C++ 完成)要容易得多,我认为 R Core 不会为此付出很多努力。
推荐阅读
- python - 如何找到float64中一列和另一列的两列熊猫数据框之间的相关性是对象(字符串)
- python - 用python解析CSV中的困难字符串
- c++ - 调试器因新的 UWP C++ 解决方案而失败
- matlab - 配对函数的阶复杂度
- deep-learning - 使用 CNN 进行图像分割的骰子系数太高
- html - 剩余可用空间 HTML 的高度
- scala - 查找 sbt 找到插件或 JAR 的存储库
- python - PyInstaller ErroNo2“没有这样的文件或目录:'akespec'”
- c# - 如何在无需缩放正交相机的情况下显示我的 SetPixels() 纹理变化?
- ios - 我应该如何更改这行代码以使其正确?