python - 在为扫描的 PDF 创建文本层时编辑文本而不弄乱页面外观?
问题描述
在为扫描的 PDF 编辑创建文本(使用 OCR 获取文本)图层(因为 OCR 给出错误的文本)时,文本不会弄乱页面外观?
ocrmypdf在创建 textlayer(能够搜索扫描的 PDF)和提供 PDF/A 标准文档(不会弄乱任何页面 UI)方面做得最好。它使用 Tesseract ocr 来检测文本,但有时 Tesseract 会给出错误的检测文本。所以我想让用户更改该文本并完成 PDF 的创建。
属于 OCR 的示例PDF无法正常工作。所以想在渲染成PDF之前更新ocr检测到的文本。
解决方案需要像,更改 ocrmypdf 的源代码或使用 PDFBOX 更新文本都对我有用。
例子:
OCRMYPDF 输入文件
OCRMYPDF 输出文件
解决方案
推荐阅读
- vba - 如何*取消*突出显示选定的文本?
- javascript - Javascript/Typescript - 使用新方法扩展 Date 对象
- sql-server - 带有 SQL 查询的 Powershell 工具 ps2exe,登录失败
- html - 将 HTML 字符串转换为 xlsx 文件以下载(angularjs)
- python-3.x - 如何编写 Python 程序以生成除前 5 个元素外的列表
- javascript - JS 静态属性与使用类名添加属性
- javascript - Python selenium whatsapp- 搜索按钮
- php - Does character set and collation affects query performance in MySQL/MariaDB?
- c++ - 将文件从一个目录复制到另一个目录 (C++)
- google-sheets - 仅删除 Google 通讯录中“系统组:我的联系人”中的联系人