首页 > 解决方案 > 如何有效地从 R 中的 PDF 中提取表格数据?

问题描述

我想使用 R 从数千个 PDF 文档中有效地提取表格数据。我通常会将 PDF 数据转换为文本字符串,然后按位置提取信息,但这些特定的表格通常缺少数据,如下例所示。缺失数据的位置因文档而异。任何人都可以建议这样做的方法吗?

PDF 类型示例

1

标签: rpdftabular

解决方案


我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格位于 PDF 的第 10-16 页:

  1. 您应该能够使用tabulizer包从所述页面中提取数据:

    tab <- tabulizer::extract_tables(file = "path/file.pdf", pages = 10:16)

  2. 如果你只想要文本,你应该使用pdftools哪个更快:

    text <- pdftools::pdf_text("path/file.pdf")[10:16]


推荐阅读