首页 > 解决方案 > tabula vs camelot 用于从 PDF 中提取表格

问题描述

我需要从 pdf 中提取表格,这些表格可以是任何类型,多个标题、垂直标题、水平标题等。

我已经实现了两者的基本用例,发现 tabula 比 camelot 做得好一点,但仍然无法完美地检测所有表,我不确定它是否适用于所有类型。

因此,寻求实施过类似用例的专家的建议。

示例 PDF:PDF1 PDF2 PDF3

表格实施:

import tabula
tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all')
for t in tab:
    print(t, "\n=========================\n")

卡米洛特实施:

import camelot
tables = camelot.read_pdf('pdfs/PDF1.pdf', pages='all', split_text=True)
tables
for tabs in tables:
    print(tabs.df, "\n=================================\n")

标签: pythonpdftabulapython-camelot

解决方案


请阅读:https ://camelot-py.readthedocs.io/en/master/#why-camelot

Camelot的主要优点是该库参数丰富,您可以通过这些参数改进提取。

显然,这些参数的应用需要一些研究和各种尝试。

在这里您可以找到 Camelot 与其他 PDF 表提取库的比较。


推荐阅读