首页 > 解决方案 > tabula_py 问题 如何提取分布在多个页面中的 pdf 表格数据

问题描述

我正在尝试使用 tabula_py 从 pdf 中提取所有表数据: df=tabula.read_ptabula.read_pdf(test_pdf,stream=True,multiple tables=True,pages="all")

pdf有3个表。第二张表在 2 页上。当我尝试 len(df) 时,它返回 4 而不是 3 扩展页面上第二个表数据的第一行作为标题返回如何将数据作为同一个表从标题提取到最后一行

标签: pythonpypdf2tabula-py

解决方案


推荐阅读