python-3.x - 流模式还是点阵模式,tabula-py模块中默认设置哪一个?
问题描述
我想知道是否有熟悉 Python 的 tabula-py 模块的人可以帮助我解决这个问题。如果没有将格或流参数传递给函数,则在任何tabula-py文档中都不清楚该tabula.read_pdf()
函数是否使用格或流模式提取作为其默认设置。代码是否会根据 pdf 文本中遇到的“表格”以某种方式猜测这两种模式中的哪一种更可取,如果不是,您能否澄清两种提取模式中的哪一种被用作默认模式(因此呈现这两个参数是多余的,因为事实上,如果您将lattice设置为False
那么您必须根据定义将流设置为True
,反之亦然)?提前致谢。
tabula.read_pdf()
将模式设置为格或流模式提取很容易,所以这不是我的问题。如果我不指定要使用哪一种,我只想知道这两种中的哪一种用作默认提取模式。
解决方案
Camelot 中解析方法的命名(即 Lattice 和 Stream)的灵感来自 Tabula。Lattice 用于解析单元格之间有分界线的表格,而 Stream 用于解析单元格之间有空格的表格以模拟表格结构。
https://github.com/camelot-dev/camelot/wiki/Comparison-with-other-PDF-Table-Extraction-libraries-and-tools
您将通过此存储库获得更好的理解
推荐阅读
- google-analytics - Measurement Protocol 仅在我提供 cid 时跟踪(当我仅提供 uid 时不跟踪)
- python - pdfkit 图像未使用 Django 嵌入
- python - 安装 AssimpCy
- reactjs - React,使用 react-hook-form 提交表单后显示消息
- debugging - 在 IntelliJ 中停止/终止调试线程
- angular - 如果我的内容溢出窗口高度,Angular 如何在底部自动滚动到新添加的元素?适用于整个页面,app
- c - 从单链表中删除元素的一个非常意外的问题
- php - Laravel SHOW WARNINGS 给出无缓冲查询活动错误
- javascript - 如何创建下拉文本的垂直列表?
- java - powerMockito 中的空指针异常