forms - 带有基于修复模板的表单(如 Passport)的 OCR
问题描述
我正在尝试使用 tesseract 执行 OCR。我可以按预期使用 tesseract java lib 将 pdf 转换为文本。我的要求现在扩展了一点。我需要根据模板形式提取元数据(一种护照示例,我们有固定的名字、出生日期等位置)。输入可以是 pdf 或具有相同模板形式的图像。
我很难找到任何这样的例子或文章来实现或在使用 tesseract 之上获得进一步的帮助。
所以我的基本问题:
- 这可以使用 tesseract 吗?
- 有没有关于如何使用 tesseract 实现这一目标的示例/文章?
- 是否有任何其他推荐的软件/库来实现这一目标?
感谢您阅读本文。
解决方案
推荐阅读
- angularjs - k-rebind 上的 md-input-container 问题
- javascript - 如何使css动画按需向前或向后播放
- javascript - 如何避免 for...in eslint 问题?
- python - 多列pandas df上的除法
- java - Java Android 简单重构
- c++ - 避免使用 std::any 编写相同的重复类型检查代码
- java - Spring 的 SwitchUserFilter 线程安全吗?
- sql - Mad cursor (SQL Server) 使程序冻结和崩溃
- reactjs - React Router 使用 /:username 或 /component/ 渲染组件
- gradle - 从 Procfile 调用 Gradlew