python - 表格可以与合并列一起引导吗?
问题描述
最近我从事表提取工作,特别是流表。在这篇文章中,我看到 tabula 很好地实现了这种提取。例如,当比较“ budget.pdftabula
”中的vs时,提取中的 Tabula 结合了最后两列。使用可以固定然后使用,或者制作原始的pdf表格。camelot
.split(' ', expand = True)
combine
join
merge
我注意到当列之间的间隙如此接近时,它们会合并为一个。在我试图实现的目标中,这是非常普遍的。我不知道我的解决方案有多好,因为在我在数据框中间处理的某些示例中,列被合并,我必须对整个数据框的列进行排序。
我想知道 Tabula 是否有一个超参数调整来处理这个问题,比如PDFMiner
你可以管理值之间的距离......
解决方案
Tabula 的维护者在这里。
您可以尝试指定列边界的水平坐标。tabula-py
此参数在方法的columns=
关键字参数中公开read_pdf
。
推荐阅读
- reactjs - React-leaflet:如何更新标记位置?
- python - 有没有办法按字典顺序对目录中的文件进行排序?
- javascript - 将幻灯片动画添加到水平滚动系统
- java - 如何在 Cent OS 6 上安装 OpenJDK 8?
- python - 网页抓取奖励表
- node.js - NODEJS/SSH2 - 将 SSH 客户端重新连接到服务器失败:ADMINISTRATIVELY_PROHIBITED
- sql - 如何选择没有看过病人的医生?
- java - Java 自定义注释中的整数字段允许为空
- excel - 如何在不更改 SUM 的情况下重新排序
- intellij-idea - IntelliJ Ultimate - groovy config - configscript 的路径是什么?