python - 使用带有表格的python识别pdf中带有网格线的表格
问题描述
我正在尝试提取 pdf 文档(大约 250 页)中包含的所有表格。问题不在于提取。问题是识别表。使用我的算法,它也像内容一样采用垃圾数据,有时是我不想要的项目符号。我特别想要只有网格线的表格。
from PyPDF2 import PdfFileWriter, PdfFileReader
from tabula import read_pdf
pages_required=[]
reader = PdfFileReader(open("input.pdf", mode='rb' ))
n = reader.getNumPages()
for page in [str(i+1) for i in range(n)]:
df=read_pdf(r"input.pdf", pages=page)
if df is not None:
pages_required.append(page)
print(pages_required)
这在一定程度上为我过滤掉了页面,但并不完全。我只需要一个包含网格线表格的页码数组。有办法吗?
解决方案
推荐阅读
- python - Django sorl:没有足够的值来解包(预期 2,得到 1)
- reactjs - Redux 错误:操作必须是普通对象。使用自定义中间件进行异步操作
- python - ModuleNotFoundError:没有名为“load_data”的模块
- android - 谷歌表格不适用于发布 apk 颤振
- php - 如何使 userEmail 外键连接到 Tbluser 模型中的 emailId
- c# - 在 C# 中拆分大字符串并将其中的值添加到列表中
- python - 没有在python的新文件中写入所有输出行
- c++ - 将子类转换为父类 C++
- instagram - Instagram 访问令牌无效错误
- python - python导入功能不导入程序