首页 > 解决方案 > 如何解析结构化 PDF 以收集所有文本和框的元数据作为数据字典

问题描述

我需要知道有助于解析结构化 pdf 的库,以便将包含的文本和框收集为数据字典。使用收集到的数据字典,我想操纵它们并重写 pdf。建议我使用 Ghostscript,但我不确定这对我有什么帮助,因为这是 postscript 的解释器。有人可以帮助我朝着正确的方向前进。

标签: pdfghostscript

解决方案


Ghostscript 解析 PDF 文件以及解释 PostScript。事实上,PDF 解释器是用 PostScript 编写的。

因为 PDF 解释器是一个 PostScript 程序,理论上你可以使用它来实现你想要的,但坦率地说这不是一个好主意。PDF 解释器程序非常复杂,您需要成为熟练的 PostScript 程序员才能有效地对其进行修改。

请注意,要求软件推荐的问题与 Stack Overflow 无关。


推荐阅读