首页 > 解决方案 > 如何使用 python 库提取 pdf 对象类型?

问题描述

我需要开发一个从 pdf 结构(而不​​是文本)中提取特征的 python 脚本。例如,我希望能够输出 pdf 是否包含 /javascript 标签或 /openAction 标签。我不想为此使用命令行。我需要在我的实际 python 程序中执行此操作。到目前为止,我已经使用了“fitz/PyMuPDF”库,并且已经能够提取特征,例如嵌入文件的数量或 pdf 元数据。但是我无法提取pdf结构中使用的每种对象类型和不同的标签。其次,我知道有诸如 PDFiD 之类的工具可以提取我正在寻找的所有这些信息,所以我也想知道是否有一种方法可以将它们的输出传输到我自己的 python 脚本中并处理它们?

标签: pythonpdffeature-extraction

解决方案


推荐阅读