python - 在python中从PDF中提取所有表格
问题描述
我有一个 PDF,想从该 PDF 中提取所有表格。当我运行下面的代码时,我得到空列表。
import pdftables
filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
with open(filepath, 'rb') as fh:
table = pdftables.get_tables(fh)
print(table)
解决方案
我假设 PDF 有不止一页?这应该有效:
from pdftables.pdf_document import PDFDocument
from pdftables.pdftables import page_to_tables
filepath = ...
page_number = ...
with open(filepath, 'rb') as file_object:
pdf_doc = PDFDocument.from_fileobj(file_object)
pdf_page = pdf_doc.get_page(pagenumber)
tables = page_to_tables(pdf_page)
print(tables)
您也可以遍历多个页面:
for page_number, page in enumerate(pdf_doc.get_pages()):
tables = page_to_tables(page)
print(tables)
推荐阅读
- python - 使用 pandas python 获取用户输入并搜索 csv
- angular - 无法在 Angular 中重新格式化日期变量
- laravel - 图像像公共文件夹中的 tmp 文件一样保存
- c# - 将 .NET Core 项目编译为 .exe 文件而不是 .dll 文件
- gunicorn - WebSocket 连接失败:WebSocket 握手期间出错:意外响应代码:200
- javascript - 如何动态更新 div 以添加嵌入的推文,然后是其他 HTML 元素
- r - 在R闪亮中更新ActionButton单击事件的绘图输出
- python-3.x - 如何将 Excel 工作表中的 numpy 浮点数组乘以常数?
- c# - 从后台进程打开窗口并在 WPF 中从用户那里获取输入
- php - 如何在引导程序 4 的同一 PHP 页面中设置重置密码模式和显示配置文件模式