r - R 和 Stata 在大型数据集上的表现不同
问题描述
我有一个包含 40,000,000 个观察值和 23 个变量的数据集。它以 Stata 格式 (.dta) 和 4.4 Gb 大写。Stata 在大约 30 秒内打开文件,而 R 无法做到这一点并报告错误术语:
Error: cannot allocate vector of size 201.8 Mb
在 RI 中使用了haven::read_dta
没有任何额外参数的函数。当文件在 Stata 中打开时,Windows 文件管理器会报告 30% 的 RAM 使用率,而当 R 尝试这样做时,会报告 96% 的 RAM 使用率。
为什么这两个软件之间的性能差异如此之大?
我正在使用一台配备 Windows 10 64 位、16gb RAM 和 Intel i7 8th gen 的机器。
解决方案
推荐阅读
- python-3.x - 使用索引对时间序列数据进行子集化时出现键错误
- javascript - 从常规 JavaScript 触发角度元素事件
- spring - 如何将“组织”声明添加到 SP 的元数据(Spring SAML)中?
- javascript - 如何为使用 create-react-app 创建的 react 项目更新 webpack 配置?
- java - 在android studio中将targetSDK更改为29后关闭应用程序
- java - 无法运行 Spring Boot 应用程序:osboot.SpringApplication 应用程序运行失败
- amadeus - 航班报价响应中缺少额外行李信息
- python - 从python中的不规则字典列表创建CSV
- javascript - 制表器 - 如何在基于道具从数据库中获取数据时显示加载指示器?
- node.js - 通过从 Node.js 后端检索在 React 前端显示像谷歌驱动器这样的图像