python - 如何使用表格从 PDF 中检索干净的表格?
问题描述
我正在尝试以 PDF 格式解析我的银行对账单。我尝试使用tabula.convert_into()
首先从 PDF 中提取表格作为 csv 文件以进行进一步处理。PDF 文件中有多个页面,我打算将它们组合成一个表。
import tabula
tabula.convert_into(sourceFile, endFile.csv,output_format="csv",pages="all",java_options="-Dfile.encoding=UTF-8")
但是,检索到的 CSV 文件非常脏: 从中可以看到不同的“余额”数字(红色下划线)不在同一列,不同的“存款”数字(以黄色突出显示)不在同一列。
它们是从 PDF 文件的不同页面检索到的,而对我来说看起来很干净,因为“余额”和“存款”数字在不同的页面上对齐,没有错位:
无论如何,我可以使用表格从 PDF 中检索干净的表格吗?我对python很陌生,非常感谢您的帮助!
解决方案
推荐阅读
- firefox - Firefox 中 MaterializeCSS 的奇怪模态行为
- php - 如何在php中复制
- excel - 使用 selenium vba 在 chrome 中自动登录
- python-3.x - 无法安装 tesserocr
- java - 如何在另一个文本字段有任何文本时禁用或隐藏一个字段,如果另一个文本框被清除,如何重新启用该字段
- python - 如何使 Read plus (r+) 模式在 python 3 中工作?
- python-3.x - Python AWS S3FS API:手动设置代理服务器
- c# - ASP.NET MVC:无法从 SQL 数据库中检索小时、分钟、秒,它们总是显示 12:00
- django - 模型函数中字符串的空值
- objective-c - 如何在Objective C中的字符串中打印字符串对象