pdf - 如何解析结构化 PDF 以收集所有文本和框的元数据作为数据字典
问题描述
我需要知道有助于解析结构化 pdf 的库,以便将包含的文本和框收集为数据字典。使用收集到的数据字典,我想操纵它们并重写 pdf。建议我使用 Ghostscript,但我不确定这对我有什么帮助,因为这是 postscript 的解释器。有人可以帮助我朝着正确的方向前进。
解决方案
Ghostscript 解析 PDF 文件以及解释 PostScript。事实上,PDF 解释器是用 PostScript 编写的。
因为 PDF 解释器是一个 PostScript 程序,理论上你可以使用它来实现你想要的,但坦率地说这不是一个好主意。PDF 解释器程序非常复杂,您需要成为熟练的 PostScript 程序员才能有效地对其进行修改。
请注意,要求软件推荐的问题与 Stack Overflow 无关。
推荐阅读
- laravel - SSL 不适用于 Laravel 应用程序,只有第一页加载了 https
- swift - UITabBar.appearance().backgroundColor = 不能快速工作
- intellij-idea - InteliJ 的想法,禁用 java 的自动构建,而不是 HTML
- ios - iOS中的Websocket连接问题?
- javascript - JavaScript:允许字符之间有空格的正则表达式
- laravel - 更新到背包中的 font awesome 5
- c# - C# ImmutableObject 属性不起作用,仍然可以更改结构值
- javascript - 仅从一个字段中删除星号
- ms-office - 如何在excel中写入偏移量的参考?
- azure-cosmosdb - CosmosDB (MongoDB) 确实恢复失败和误导信息