首页 > 解决方案 > pdfQuery 结果数据的面向对象数据结构是什么?

问题描述

我目前正在用 python 构建一个程序来抓取和解析 pdf,希望比目前可用的更优雅。

从 python 中的 pdfquery 输出的数据结构层次结构是:(希望这是有道理的)

PDFDocument
    PDFPage[1]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    PDFPage[2]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    ....
    PDFPage[i]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFElement[i]

我想创建一个 OO python 数据结构,如上所述设置层次结构。将 pdfElement 类对象 [s] 作为 pdfPage 类对象 [s] 的属性嵌入,这些对象作为 pdfDocument 元素的属性嵌入。

这必须在创建类时迭代地完成。我想知道这是否是构建数据的最佳方式,或者我最好做其他事情?如果我有几百页,每页可能包含 30 到 50 个元素,我也想知道任何关于“昂贵”的想法。

标签: pythonpdfpdfpage

解决方案


推荐阅读