首页 > 解决方案 > 抓取大型复杂的 PDF 表格

问题描述

出于我自己病态的好奇心,我一直试图从 PDF 中抓取一些关于 2020 年加州选举结果的数据。

我需要抓取出现在许多页面上的许多表格。在某些情况下,这些行将继续到下一页,并且其他列也会出现在其他页面上。我已经包含了一个示例的链接。我对 R 很满意,但如果 Python 更适合抓取,我也可以使用它。我还没有找到很多资源来说明如何处理带有两种语言的附加页面的表格。我需要将这些表转换为 CSV 或 XLSX 格式。

先感谢您!

在此示例中,第 15-28 页应该是一个表格。 https://www.co.tehama.ca.us/images/images/Elections/StatementOfVotesCastNOV2020v2excel.pdf

标签: pythonrexcelpdf-scraping

解决方案


我能够使用以下过程获取整个表格。

  1. 在 MS Word 中打开 pdf - 而不是 Adob​​e Acrobat。Word 将转换文档。
  2. 转换完成后,全选。(两者都可能需要一些时间。)
  3. 粘贴到空白 Excel 工作表中。保存并享受。

推荐阅读