首页 > 解决方案 > 表格可以与合并列一起引导吗?

问题描述

最近我从事表提取工作,特别是表。在这篇文章中,我看到 tabula 很好地实现了这种提取。例如,当比较“ budget.pdftabula ”中的vs时,提取中的 Tabula 结合了最后两列。使用可以固定然后使用,或者制作原始的pdf表格。camelot.split(' ', expand = True)combinejoinmerge

我注意到当列之间的间隙如此接近时,它们会合并为一个。在我试图实现的目标中,这是非常普遍的。我不知道我的解决方案有多好,因为在我在数据框中间处理的某些示例中,列被合并,我必须对整个数据框的列进行排序。

我想知道 Tabula 是否有一个超参数调整来处理这个问题,比如PDFMiner你可以管理值之间的距离......

标签: pythonpandastabula

解决方案


Tabula 的维护者在这里。

您可以尝试指定列边界的水平坐标。tabula-py此参数在方法的columns=关键字参数中公开read_pdf


推荐阅读