r - R:导入数百万个小的字母数字 csv 文件
问题描述
我有大约 300GB 的 15KB csv 文件(每个文件正好有 100 行),我需要将它们导入、连接、操作和重新保存为单个 rds。
我已经设法通过仅导入我需要的列来减少所需的 RAM 量,但是一旦我需要对列进行任何操作,我就会将其最大化。
你对这类问题的策略是什么?
解决方案
您还可以使用disk.frame库,它旨在允许处理大于 RAM 的数据。然后,您可以像在 data.table 中或使用 dplyr 动词一样操作数据。
推荐阅读
- jquery - jQuery UI sortable - 获取与drop相邻的项目
- xamarin - Xamarin Android - 本地通知不会出现在 android 版本中 (Pie,Oreo) (9,8)
- watson-openscale - 公平监视器不允许配置“最大记录”
- mysql - 如何将文本格式的日期数据类型更改为日期时间格式
- excel - 宏的自动化/效率或宏概念的指导,以根据连续值移动某些单元格
- python - AttributeError:“str”对象没有属性“_sa_instance_state”
- python - Python Global Not Behaving As Expected
- python - Web 应用程序中的 Gremlin Python
- r - 计算字符串列中关键字列表的出现总数
- python - 如何在应用程序的 urls.py 中设置路径以显示 localhost:8000/xxx(使用 django2.1.8)