r - 如何有效地从 R 中的 PDF 中提取表格数据?
问题描述
我想使用 R 从数千个 PDF 文档中有效地提取表格数据。我通常会将 PDF 数据转换为文本字符串,然后按位置提取信息,但这些特定的表格通常缺少数据,如下例所示。缺失数据的位置因文档而异。任何人都可以建议这样做的方法吗?
PDF 类型示例
解决方案
我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格位于 PDF 的第 10-16 页:
您应该能够使用
tabulizer
包从所述页面中提取数据:tab <- tabulizer::extract_tables(file = "path/file.pdf", pages = 10:16)
如果你只想要文本,你应该使用
pdftools
哪个更快:text <- pdftools::pdf_text("path/file.pdf")[10:16]
推荐阅读
- flutter - Flutter 设备预览和 Firebase 身份验证不兼容
- html - Bootstrap/css nof 在 IE 和 ED 上找到/工作
- php - 将 body_class 作为变量传递给 Gravity 表单隐藏字段
- java - 从这个三元运算符中选择什么作为这个 setter 的值?
- php - PHP 会话变量更改
- spring-boot - 控制器测试不提供任何请求路径来过滤
- lua - 为什么在 Lua 中使用“local print = print”?
- powershell - 如何编写 Powershell 脚本来识别多个订阅中过去 30 天内创建日期的任何天蓝色资源
- javascript - 按下浏览器后退按钮时,有时不会触发 Angular location.onPopState
- java - 为数字的每个数字添加一个值