python - 抓取大型复杂的 PDF 表格
问题描述
出于我自己病态的好奇心,我一直试图从 PDF 中抓取一些关于 2020 年加州选举结果的数据。
我需要抓取出现在许多页面上的许多表格。在某些情况下,这些行将继续到下一页,并且其他列也会出现在其他页面上。我已经包含了一个示例的链接。我对 R 很满意,但如果 Python 更适合抓取,我也可以使用它。我还没有找到很多资源来说明如何处理带有两种语言的附加页面的表格。我需要将这些表转换为 CSV 或 XLSX 格式。
先感谢您!
在此示例中,第 15-28 页应该是一个表格。 https://www.co.tehama.ca.us/images/images/Elections/StatementOfVotesCastNOV2020v2excel.pdf
解决方案
我能够使用以下过程获取整个表格。
- 在 MS Word 中打开 pdf - 而不是 Adobe Acrobat。Word 将转换文档。
- 转换完成后,全选。(两者都可能需要一些时间。)
- 粘贴到空白 Excel 工作表中。保存并享受。
推荐阅读
- node.js - Heroku ReactJS 部署
- typescript - 扩展已知类的打字稿类型
- amazon-web-services - Aws EC2 Kubernetes 外部 IP 待定
- java - 在 OpenJDK 11.0.11 (JDK-8214213) 中更改了 jdeps 行为
- r - 如何“重新调整”R中data.frame列中的级别?
- php - 限制给定模型的多对多关系?
- bash - 如何在通过参数传递它的函数内更新关联数组?
- r - 在归一化操作之前仅选择现有组合
- ruby-on-rails - 在本地主机上工作但在heroku中出错
- python - 使用 numba 重载时 Python 内核死机