首页 > 解决方案 > 使用带有表格的python识别pdf中带有网格线的表格

问题描述

我正在尝试提取 pdf 文档(大约 250 页)中包含的所有表格。问题不在于提取。问题是识别表。使用我的算法,它也像内容一样采用垃圾数据,有时是我不想要的项目符号。我特别想要只有网格线的表格。

from PyPDF2 import PdfFileWriter, PdfFileReader
from tabula import read_pdf
pages_required=[]
reader = PdfFileReader(open("input.pdf", mode='rb' ))
n = reader.getNumPages()
for page in [str(i+1) for i in range(n)]:
    df=read_pdf(r"input.pdf", pages=page)
    if df is not None:
        pages_required.append(page)
print(pages_required)

这在一定程度上为我过滤掉了页面,但并不完全。我只需要一个包含网格线表格的页码数组。有办法吗?

标签: pythonpython-3.xpandaspdfpdf-scraping

解决方案


推荐阅读