首页 > 解决方案 > Tabula-py 不读取文件的全部数据

问题描述

我试图使用 tabularead_pdf()方法从 PDF 文件中读取表格。但它不是阅读完整的表格。它在表格的某些行上丢失了。我正在尝试以下给定的代码:

tables = tabula.read_pdf(f,
                         stream=True,
                         pages="all",
                         silent=False,
                         multiple_tables=True,
                         password=pas,
                         pandas_options={'header': None}
                        )
df = pd.DataFrame()
df = pd.concat([c for c in tables]).drop_duplicates()
df = df.replace(r'^\s*$', np.nan, regex=True)
df = df[df.isnull().sum(axis=1) < df.shape[1] - 2].reset_index(drop=True)

这是运行上述代码时的输出:

| XNS Date   | Narration | Withdrawl | Credits |
|------------|-----------|-----------|---------|
| 01/04/2018 | IMPS 1234 | 2200      |         |
| 02/04/2018 | NEFT 4567 |           | 4500    |
| 03/04/2018 | RTGS 2234 |           | 5500    |

以及来自 PDF 文件的实际数据

| XNS Date   | Narration | Withdrawl | Credits |
|------------|-----------|-----------|---------|
| 30/03/2018 | NEFT 445  |           | 1200    |
| 31/03/2018 | RTGS 556  |           | 2000    |
| 01/04/2018 | IMPS 1234 | 2200      |         |
| 02/04/2018 | NEFT 4567 |           | 4500    |
| 03/04/2018 | RTGS 2234 |           | 5500    |
| 04/04/2018 | POS       | 1500      |         |

标签: pythonpython-3.xdataframetabula-py

解决方案


推荐阅读