首页 > 解决方案 > 将多个 pdf 文件转换为 CSV 文件

问题描述

我的任务是将如下图 1 所示的所有 pdf 文件转换为单个 csv 文件。即 CSV 文件中的一行包含一个 pdf 文档。我使用下面的代码,我很挣扎。您的帮助和评论将不胜感激。

谢谢,

  # Convert multiple pdf files to CSV files before mining
  install.packages('pdftools')
  install.packages('xlsx')

  # Relevant libraries
  library("pdftools")
  library("xlsx")

  #Set up a path
  a<-"my path"
  folder<-list.files(path=a,pattern="pdf",full.name=TRUE)

 sapply(folder, FUN=function(i){
 file.rename(from=i,to =paste0(dirname(i),
                            "/",gsub(" ","",basename(i))))})

 folder1<-list.files(path=a,pattern="pdf",full.names=TRUE)  

 lapply(folder1, function(i) system(paste('"C:/Program 
 Files/xpdf/bin64/pdftotext.exe"', paste0('"', i, '"')), wait = FALSE) )

在此处输入图像描述

标签: rtexttext-mining

解决方案


推荐阅读