python - pdfQuery 结果数据的面向对象数据结构是什么?
问题描述
我目前正在用 python 构建一个程序来抓取和解析 pdf,希望比目前可用的更优雅。
从 python 中的 pdfquery 输出的数据结构层次结构是:(希望这是有道理的)
PDFDocument
PDFPage[1]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
PDFPage[2]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
....
PDFPage[i]
PDFElement[1]
PDFElement[2]
...
PDFElement[i]
我想创建一个 OO python 数据结构,如上所述设置层次结构。将 pdfElement 类对象 [s] 作为 pdfPage 类对象 [s] 的属性嵌入,这些对象作为 pdfDocument 元素的属性嵌入。
这必须在创建类时迭代地完成。我想知道这是否是构建数据的最佳方式,或者我最好做其他事情?如果我有几百页,每页可能包含 30 到 50 个元素,我也想知道任何关于“昂贵”的想法。
解决方案
推荐阅读
- java - 测试二维数组的每一行和每一列中元素的存在 - java
- nginx - Nginx 路由配置
- python - 如何在tensorflow中使用If语句?
- three.js - 在three.js中检测子弹碰撞
- javascript - D3JS - 在 setinterval 刷新时更改颜色(又名粗糙)
- java - 应用程序作为 Eclipse 应用程序运行的属性
- vim - 处理 pymode#run#code_run 时检测到 pymode 错误
- c++ - C++ 中意外的 long long 值
- winforms - 成员函数或访问器如何知道它是否被监视窗口调用?
- python - 触发多个 sql 查询时的异常处理