python-3.x - 将具有多个页面的多个 .pdf 文件转换为 1 个单个 .csv 文件
问题描述
我正在尝试将 .pdf 数据转换为电子表格。根据一些研究,有些人建议先将其转换为 csv 以避免错误。
所以,我做了下面的编码,这给了我: “TypeError:无法连接类型''的对象;只有Series和DataFrame objs是有效的”
'pd.concat' 命令出现错误。
'''
import tabula
import pandas as pd
import glob
path = r'C:\Users\REC.AC'
all_files = glob.glob(path + "/*.pdf")
print (all_files)
df = pd.concat(tabula.read_pdf(f1) for f1 in all_files)
df.to_csv("output.csv", index = False)
'''
解决方案
由于这可能是一个常见问题,因此我发布了我找到的解决方案。
"""
df = []
for f1 in all_files:
df = pd.concat(tabula.read_pdf(f1))
"""
我相信将项目迭代分成两部分会生成它需要的数据框,因此会起作用。
推荐阅读
- powerbi - 面向列的矩阵中的一般每月总计
- mysql - 使用 gcc 的 C 代码无法链接到 mysql 标头?
- google-app-maker - 如何浏览到加载到 Google AppMaker 表中的数据源中的下一页
- kibana - Filebeat Nginx 捕获 vhost
- c - 取消引用指向不完整类型的指针 [处理结构]
- c# - c# 在 LINQ 查询返回的列表中查找项目并将其值与列表中的另一个项目进行比较
- java - 后置条件的java断言
- python - 优化 pandas/python 中的比较行操作
- java - OWLAPI 查找特定类的所有 DataSomeValuesFrom
- ansible - 确保 ansible with_sequence 循环中的延迟