首页 > 解决方案 > 在为扫描的 PDF 创建文本层时编辑文本而不弄乱页面外观?

问题描述

在为扫描的 PDF 编辑创建文本(使用 OCR 获取文本)图层(因为 OCR 给出错误的文本)时,文本不会弄乱页面外观?

ocrmypdf在创建 textlayer(能够搜索扫描的 PDF)和提供 PDF/A 标准文档(不会弄乱任何页面 UI)方面做得最好。它使用 Tesseract ocr 来检测文本,但有时 Tesseract 会给出错误的检测文本。所以我想让用户更改该文本并完成 PDF 的创建。

属于 OCR 的示例PDF无法正常工作。所以想在渲染成PDF之前更新ocr检测到的文本。

解决方案需要像,更改 ocrmypdf 的源代码或使用 PDFBOX 更新文本都对我有用。

例子:

OCRMYPDF 输入文件

OCRMYPDF 输出文件

标签: pythonpdfocrpdfbox

解决方案


推荐阅读