首页 > 解决方案 > 如何使用 R 抓取下载的 PDF 文件

问题描述

我最近在实习期间开始了抓取(和一般编程),我遇到了 PDF 抓取。每次我尝试用 R 阅读扫描的 pdf 时,我都无法让它工作。我尝试使用该file.choose()功能无济于事。我是否需要更改我的目录,或者如何将 pdf 从我的文件中获取到 R 中?代码看起来像这样:

    > library(pdftools)
    > text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
    > text
    [1] ""

此外,使用 pdftables 将我带到这里:

    > library(pdftables)
    > convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
    Error in get_content(input_file, format, api_key) : 
    Bad Request (HTTP 400).

标签: rpdf-scraping

解决方案


您应该使用包pdftoolspdftables.

如果您尝试阅读 pdf 中的文本,请使用pdf_text()函数。里面是pdf的路径(在您的计算机或网络中)。例如

tt = pdf_text("C:/Users/Smith/Documents/my_file.pdf")

如果您更具体并给我们提供可重复的示例,那就太好了。


推荐阅读