r - 如何使用 R 抓取下载的 PDF 文件
问题描述
我最近在实习期间开始了抓取(和一般编程),我遇到了 PDF 抓取。每次我尝试用 R 阅读扫描的 pdf 时,我都无法让它工作。我尝试使用该file.choose()
功能无济于事。我是否需要更改我的目录,或者如何将 pdf 从我的文件中获取到 R 中?代码看起来像这样:
> library(pdftools)
> text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
> text
[1] ""
此外,使用 pdftables 将我带到这里:
> library(pdftables)
> convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
Error in get_content(input_file, format, api_key) :
Bad Request (HTTP 400).
解决方案
您应该使用包pdftools
和pdftables
.
如果您尝试阅读 pdf 中的文本,请使用pdf_text()
函数。里面是pdf的路径(在您的计算机或网络中)。例如
tt = pdf_text("C:/Users/Smith/Documents/my_file.pdf")
如果您更具体并给我们提供可重复的示例,那就太好了。
推荐阅读
- r - 如何建立与文件的连接?
- python - 如何对齐大脑 MRI
- python - 在 pandas.Series 中创建一个转变
- python - Python:`logger.info` 和 `logging.info` 有什么区别?
- java - MySQL 和 Java (JDBC) 连接错误:用户访问被拒绝
- google-bigquery - 在 bigquery 中查询嵌套数据
- python - torch.nn.DataParallel 和 to(device) 不支持嵌套模块
- java - 使用spring boot jpa存储库时出现Stackoverflow错误
- python - 如何使用 xlsxwriter 添加工作表
- html - PhpStorm 代码折叠显示折叠 HTML 部分的第一行