首页 > 解决方案 > 将非常大的 txt 文件加载到 R 中的最佳方法是什么?

问题描述

我有一个从网站下载的大 .txt 文件。它包含大约 5500 万行。

我需要在 R 中处理这些数据,并且试图弄清楚如何将数据放入 R 中的数据框中。

这是我目前使用的:

US_Citations_1 <- read.table( "201709_US_Citations_3.txt", header= TRUE, sep="|", as.is=FALSE, na.strings="NA", colClasses=NA, nrows=5000000, skip=0, fill=TRUE, strip.white=TRUE, blank.lines.skip=TRUE, comment.char="", allowEscapes=FALSE, flush=FALSE, stringsAsFactors=TRUE, fileEncoding="", encoding="unknown")

US_Citations_2 <- read.table( "201709_US_Citations_3.txt", header= FALSE, sep="|", as.is=FALSE, na.strings="NA", colClasses=NA, nrows=5000000, skip=5000001, fill=TRUE, strip.white=TRUE, blank.lines.skip=TRUE, comment.char="", allowEscapes=FALSE, flush=FALSE, stringsAsFactors=TRUE, fileEncoding="", encoding="unknown")

我基本上将文件分成更小的段(尝试导入整个文件会导致错误)。

所以第一个代码打开 500 万行,下一个文件打开接下来的 500 万行(nrows=5000000,skip=5000001),然后我还有 11 个命令,每个命令生成 500 万行。

这个想法是,一旦所有 11 个数据帧都被导入,我将使用一个简单的 rbind 命令将它们全部合并到一个大帧中。

我的问题是我无法加载最后 1000 万行。即使我将它设置为只导入 10 行,它似乎也卡住了,只能无限期地工作。

您还有其他解决方案吗?谢谢你。

标签: r

解决方案


推荐阅读