首页 > 解决方案 > 流模式还是点阵模式,tabula-py模块中默认设置哪一个?

问题描述

我想知道是否有熟悉 Python 的 tabula-py 模块的人可以帮助我解决这个问题。如果没有将格参数传递给函数,则在任何tabula-py文档中都不清楚该tabula.read_pdf()函数是否使用模式提取作为其默认设置。代码是否会根据 pdf 文本中遇到的“表格”以某种方式猜测这两种模式中的哪一种更可取,如果不是,您能否澄清两种提取模式中的哪一种被用作默认模式(因此呈现这两个参数是多余的,因为事实上,如果您将lattice设置为False那么您必须根据定义将流设置为True,反之亦然)?提前致谢。

tabula.read_pdf()将模式设置为格或流模式提取很容易,所以这不是我的问题。如果我不指定要使用哪一种,我只想知道这两种中的哪一种用作默认提取模式。

标签: python-3.xtabula-py

解决方案


Camelot 中解析方法的命名(即 Lattice 和 Stream)的灵感来自 Tabula。Lattice 用于解析单元格之间有分界线的表格,而 Stream 用于解析单元格之间有空格的表格以模拟表格结构。


https://github.com/camelot-dev/camelot/wiki/Comparison-with-other-PDF-Table-Extraction-libraries-and-tools

您将通过此存储库获得更好的理解


推荐阅读