首页 > 解决方案 > R 和 Stata 在大型数据集上的表现不同

问题描述

我有一个包含 40,000,000 个观察值和 23 个变量的数据集。它以 Stata 格式 (.dta) 和 4.4 Gb 大写。Stata 在大约 30 秒内打开文件,而 R 无法做到这一点并报告错误术语:

Error: cannot allocate vector of size 201.8 Mb

在 RI 中使用了haven::read_dta没有任何额外参数的函数。当文件在 Stata 中打开时,Windows 文件管理器会报告 30% 的 RAM 使用率,而当 R 尝试这样做时,会报告 96% 的 RAM 使用率。

为什么这两个软件之间的性能差异如此之大?

我正在使用一台配备 Windows 10 64 位、16gb RAM 和 Intel i7 8th gen 的机器。

标签: rout-of-memorystata

解决方案


推荐阅读