首页 > 解决方案 > 有没有办法让 PDFQuery.load 更高效(并且仍然可靠)

问题描述

我正在使用 PDFQuery 从 pdf 中提取一些文本数据,但是当 pdf 超过 2-3 页时,该函数load()需要大量时间(约 120 秒)。

我发现大部分时间都由_box_in_box()_comp_bbox()函数占用:分析器结果

我还找到了一种让它更快的方法,你应该更新一个名为 pdfminer 的库(PDFQuery 在后台使用它)。更新后,处理相同的 pdf 需要 5-10 秒,但由于某种原因,“布局识别”的质量要差得多。

标签: pythonpdfpdfminer

解决方案


推荐阅读