首页 > 解决方案 > 如何使用 imagemagick 处理多页 PDF 的每一页?

问题描述

我有一个带有照片书页的多页 PDF。我想从每一页中删除渐变,为光学字符识别做准备。

此命令适用于单个页面的 PNG:

convert page.png \( +clone -blur 0x64 \) -compose minus -composite -channel RGB -negate page_deblurred.png

但是,一旦我使用此命令在多页 PDF 上尝试此操作...

convert full.pdf \( +clone -blur 0x64 \) -compose minus -composite -channel RGB -negate full_deblurred.pdf

...我得到一个单页 PDF,其中的颜色反转,上面覆盖了几页的文本。

如何告诉 imagemagick 像处理 PNG 一样处理每一页并将多页 PDF 返回给我?

标签: pdfimage-processingimagemagickimagemagick-convertimage-editing

解决方案


您似乎不太可能希望将 PDF 传递给 OCR,因为 Tesseract 等人更喜欢 PNG 或 NetPBM PPM 文件,因此您不妨将大 PDF 拆分为单独的 PNG(或其他)文件:

convert full.pdf page-%03d.png

您现在可以一次删除单个页面上的渐变,然后传递给 OCR。或者您可以使用GNU Parallel 并行执行它们 - 请说明是否可以选择,如果是,我会为您编写。


推荐阅读