首页 > 解决方案 > 如何使用表格从 PDF 中检索干净的表格?

问题描述

我正在尝试以 PDF 格式解析我的银行对账单。我尝试使用tabula.convert_into()首先从 PDF 中提取表格作为 csv 文件以进行进一步处理。PDF 文件中有多个页面,我打算将它们组合成一个表。

import tabula
    tabula.convert_into(sourceFile, endFile.csv,output_format="csv",pages="all",java_options="-Dfile.encoding=UTF-8")

但是,检索到的 CSV 文件非常脏: 已检索到 CSV 文件(实际金额被屏蔽) 从中可以看到不同的“余额”数字(红色下划线)不在同一列,不同的“存款”数字(以黄色突出显示)不在同一列。

它们是从 PDF 文件的不同页面检索到的,而对我来说看起来很干净,因为“余额”和“存款”数字在不同的页面上对齐,没有错位:

上一页,表格的前半部分

第二页,表格的后半部分

无论如何,我可以使用表格从 PDF 中检索干净的表格吗?我对python很陌生,非常感谢您的帮助!

清洁表示例,所需目标

标签: pythonpython-3.xtabula

解决方案


推荐阅读