首页 > 解决方案 > 带有基于修复模板的表单(如 Passport)的 OCR

问题描述

我正在尝试使用 tesseract 执行 OCR。我可以按预期使用 tesseract java lib 将 pdf 转换为文本。我的要求现在扩展了一点。我需要根据模板形式提取元数据(一种护照示例,我们有固定的名字、出生日期等位置)。输入可以是 pdf 或具有相同模板形式的图像。

我很难找到任何这样的例子或文章来实现或在使用 tesseract 之上获得进一步的帮助。

所以我的基本问题:

  1. 这可以使用 tesseract 吗?
  2. 有没有关于如何使用 tesseract 实现这一目标的示例/文章?
  3. 是否有任何其他推荐的软件/库来实现这一目标?

感谢您阅读本文。

标签: formstemplatesocrtesseracttext-recognition

解决方案


推荐阅读