r - 为什么 R 会话在包含 13 K pdf 文件的 for 循环中中止?
问题描述
我正在为 13 K pdf 文件执行循环,它在其中读取、预处理文本、查找相似性并写入 txt。但是,当我在 760 个 pdf 文件之后运行 for 循环时,R 会话中止。可能是什么原因?
- 我尝试编写最少的代码来重现错误。但我收到同样的问题。
- 我试图增加
memory_limit()
,这也不是问题。 - 我试图删除文件夹中的隐藏文件,例如
Thumbs.db
,但同样的问题再次出现。 - 我试图将 13 K pdf 文件分成 4 个文件夹,每个文件夹(3,3K),我得到了同样的错误信息
Error in file(file, ifelse(append, "a", "w")) : can not open the connection. In addition: There are 50 warnings() and R session aborted.
- 当我运行 pdf_folder[759:762] 时,它在没有中止的情况下读取得非常好。
folder_path <- "C: ...."
## get vector with all pdf names
pdf_folder <- list.files(folder.path)
## for loop over all pdf documents
for(s in 1:length(pdf_folder)){
# for(s in 1:2){
tryCatch({
## choose one pdf document from vector of strings
pdf_document_name <- pdf_folder[s]
## read pdf_document pdf into data.frame
pdf <- read_pdf(paste0(folder_path,"/",pdf_document_name))
print(s)
rm(pdf)
## first end trycatch block
}, error = function(e){print(paste("Error: PDF Document not used: ",pdf_document_name, sep =""))}
) ## end of trycatch
} ## end of for loop
# Error:
Error in file(file, ifelse(append, "a", "w")) : can not open the connection. In addition: There are 50 warnings()
预期结果是读取、预处理folder.path 中的所有pdf 文档。
解决方案
推荐阅读
- angular - 如何使某些输入字段仅在选择相应的单选按钮时才需要
- abap - 动态自定义工具栏
- dart - 在 Flutter 中保持 MaterialApp->Scaffold->body->Text 中的状态并从 MaterialApp->Scaffold->FloatingActionButton 更新状态
- sql - 将链接服务器中的所有视图复制到新数据库中
- shader - A-Frame A-Text 蒙版
- r - 创建函数以避免 R for 循环中的 url 错误
- git - 用于批量结帐的 git 脚本
- rust - 是否可以修改正在模式匹配的值?
- python - 如何使用 python 管理大型 excel 文件?
- unix - 执行 Linux 脚本时出现 jrcmd not found 错误