python - tabula vs camelot 用于从 PDF 中提取表格
问题描述
我需要从 pdf 中提取表格,这些表格可以是任何类型,多个标题、垂直标题、水平标题等。
我已经实现了两者的基本用例,发现 tabula 比 camelot 做得好一点,但仍然无法完美地检测所有表,我不确定它是否适用于所有类型。
因此,寻求实施过类似用例的专家的建议。
表格实施:
import tabula
tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all')
for t in tab:
print(t, "\n=========================\n")
卡米洛特实施:
import camelot
tables = camelot.read_pdf('pdfs/PDF1.pdf', pages='all', split_text=True)
tables
for tabs in tables:
print(tabs.df, "\n=================================\n")
解决方案
请阅读:https ://camelot-py.readthedocs.io/en/master/#why-camelot
Camelot的主要优点是该库参数丰富,您可以通过这些参数改进提取。
显然,这些参数的应用需要一些研究和各种尝试。
在这里您可以找到 Camelot 与其他 PDF 表提取库的比较。
推荐阅读
- firebase - 如何将 Firebase 实时数据库导出为 CSV?
- hadoop - 普通身份验证失败:未为任何模拟配置用户纱线。impersonationUser:alluxio mapreduce 中的root
- haskell - 对卡片列表进行排序
- sql - SQL 根据同一列中的其他值过滤值
- sas-metadata - 以编程方式创建一个具有内部登录的新人员
- ios - 带有图像和裁剪视图的 APNS
- zenoss - 如何使用 zendmd 在 Zenoss 中重置密码(或解锁用户)?(通常的方法不起作用)
- wordpress - 当我使用 facebook 页面插件小部件时,出现错误
- android - 范围报告问题并行测试
- oracle - Oracle PL/SQL 触发器(插入新行时触发)