python - 有没有办法让 PDFQuery.load 更高效(并且仍然可靠)
问题描述
我正在使用 PDFQuery 从 pdf 中提取一些文本数据,但是当 pdf 超过 2-3 页时,该函数load()
需要大量时间(约 120 秒)。
我发现大部分时间都由_box_in_box()
和_comp_bbox()
函数占用:
我还找到了一种让它更快的方法,你应该更新一个名为 pdfminer 的库(PDFQuery 在后台使用它)。更新后,处理相同的 pdf 需要 5-10 秒,但由于某种原因,“布局识别”的质量要差得多。
解决方案
推荐阅读
- node.js - 如何调试 Nodejs Web 应用程序中未找到的错误?
- python - 如何解析 sql 和 ubuntu 日志
- user-interface - 如何使用 Oracle-jet 构建网站
- python - python google-cloud-sdk/bin/dev_appserver.py --host **.22*.74* --port 8000 ./out/app_engine/
- php - Laravel 1 个查询中的多个计数
- mysql - 如何从一个表中选择数据并选择计数到另一个表并在 MySQL 中合并?
- angular - 错误 TS2322:类型“字符串”不可分配给类型“类型”
'。在角度 7 - javascript - 在动画中运行方法或在两个动画之间运行方法
- javascript - event.preventDefault() 和 event.StopPropagation 不允许我们覆盖 mozilla 中的 ctrl+p 和 ctrl+d 和 ctrl+t 功能
- python - Python中的小数精度