首页 > 解决方案 > 将具有多个页面的多个 .pdf 文件转换为 1 个单个 .csv 文件

问题描述

我正在尝试将 .pdf 数据转换为电子表格。根据一些研究,有些人建议先将其转换为 csv 以避免错误。

所以,我做了下面的编码,这给了我: “TypeError:无法连接类型''的对象;只有Seri​​es和DataFrame objs是有效的”

'pd.concat' 命令出现错误。

'''

import tabula
import pandas as pd
import glob


path = r'C:\Users\REC.AC'
all_files = glob.glob(path + "/*.pdf")
print (all_files)

df = pd.concat(tabula.read_pdf(f1) for f1 in all_files)
df.to_csv("output.csv", index = False)

'''

标签: python-3.xpandasdataframetabula

解决方案


由于这可能是一个常见问题,因此我发布了我找到的解决方案。

"""

df = []

for f1 in all_files:
    df = pd.concat(tabula.read_pdf(f1))

"""

我相信将项目迭代分成两部分会生成它需要的数据框,因此会起作用。


推荐阅读