r - 将非常大的 txt 文件加载到 R 中的最佳方法是什么?
问题描述
我有一个从网站下载的大 .txt 文件。它包含大约 5500 万行。
我需要在 R 中处理这些数据,并且试图弄清楚如何将数据放入 R 中的数据框中。
这是我目前使用的:
US_Citations_1 <- read.table( "201709_US_Citations_3.txt", header= TRUE, sep="|", as.is=FALSE, na.strings="NA", colClasses=NA, nrows=5000000, skip=0, fill=TRUE, strip.white=TRUE, blank.lines.skip=TRUE, comment.char="", allowEscapes=FALSE, flush=FALSE, stringsAsFactors=TRUE, fileEncoding="", encoding="unknown")
US_Citations_2 <- read.table( "201709_US_Citations_3.txt", header= FALSE, sep="|", as.is=FALSE, na.strings="NA", colClasses=NA, nrows=5000000, skip=5000001, fill=TRUE, strip.white=TRUE, blank.lines.skip=TRUE, comment.char="", allowEscapes=FALSE, flush=FALSE, stringsAsFactors=TRUE, fileEncoding="", encoding="unknown")
我基本上将文件分成更小的段(尝试导入整个文件会导致错误)。
所以第一个代码打开 500 万行,下一个文件打开接下来的 500 万行(nrows=5000000,skip=5000001),然后我还有 11 个命令,每个命令生成 500 万行。
这个想法是,一旦所有 11 个数据帧都被导入,我将使用一个简单的 rbind 命令将它们全部合并到一个大帧中。
我的问题是我无法加载最后 1000 万行。即使我将它设置为只导入 10 行,它似乎也卡住了,只能无限期地工作。
您还有其他解决方案吗?谢谢你。
解决方案
推荐阅读
- sql - 如何在 PostgreSQL 中获取表的每一天的第一个日期并将其转换为 JSON
- javascript - 有没有办法在javascript中的类中定义数组?
- spring - 如何从问号 (?) 之后的 URL Rest Service 获取参数
- apache-spark - 如何在 PySpark 数据框中添加具有备用值的列?
- python - Python SqlAlchemy + MySql 按 JSON 列数据过滤
- python-3.x - Python Pandas read_csv():错误加载的 csv
- ios - 如何在没有 ViewControllers 的情况下使用 SwiftUI 获取当前位置?
- c# - 在给定的文化中查找不区分大小写的字符串的第一个区别
- mysql - 错误:“SQLSTATE [42000]:语法错误或访问冲突:1064
- python - AttributeError:“配置”对象没有属性“测试系统”