python - Tabula-py 不读取文件的全部数据
问题描述
我试图使用 tabularead_pdf()
方法从 PDF 文件中读取表格。但它不是阅读完整的表格。它在表格的某些行上丢失了。我正在尝试以下给定的代码:
tables = tabula.read_pdf(f,
stream=True,
pages="all",
silent=False,
multiple_tables=True,
password=pas,
pandas_options={'header': None}
)
df = pd.DataFrame()
df = pd.concat([c for c in tables]).drop_duplicates()
df = df.replace(r'^\s*$', np.nan, regex=True)
df = df[df.isnull().sum(axis=1) < df.shape[1] - 2].reset_index(drop=True)
这是运行上述代码时的输出:
| XNS Date | Narration | Withdrawl | Credits |
|------------|-----------|-----------|---------|
| 01/04/2018 | IMPS 1234 | 2200 | |
| 02/04/2018 | NEFT 4567 | | 4500 |
| 03/04/2018 | RTGS 2234 | | 5500 |
以及来自 PDF 文件的实际数据
| XNS Date | Narration | Withdrawl | Credits |
|------------|-----------|-----------|---------|
| 30/03/2018 | NEFT 445 | | 1200 |
| 31/03/2018 | RTGS 556 | | 2000 |
| 01/04/2018 | IMPS 1234 | 2200 | |
| 02/04/2018 | NEFT 4567 | | 4500 |
| 03/04/2018 | RTGS 2234 | | 5500 |
| 04/04/2018 | POS | 1500 | |
解决方案
推荐阅读
- git - 如何避免 ansible git 模块存储凭据?
- google-app-engine - 将数据从多个 Chrome 扩展程序提供到单个 Google 电子表格的最佳无服务器方式
- python-3.x - 验证 BEARER TOKEN Hangout 聊天机器人 API POST
- javascript - 是否可以重构 vanilla JS DOM 操作
- gradle - JavaFX 模块不导出到未命名的模块
- javascript - 为什么 Bootstrap4 模态不会在我的 Django 模板中显示数据?
- kubernetes - Kubernetes 中 pod 日志中的 TLS 错误
- javascript - nextTick API 在 Vue 中是如何工作的?
- vue.js - 使用 OpenLayers 在 Vuejs 中加载 WMS
- java - 总和 Firestore 字段的数组值