首页 > 解决方案 > 从 PAN 卡读取文本

问题描述

我有从 PAN 卡中读取文本的用例。理想情况下,应用程序应具有扫描 PAN 卡的屏幕,并应从那里提取文本。提取的文本将在其他屏幕上自动填充。

我已阅读有关 tesseract npm 模块的信息,但仍然不知道从哪里开始,因为互联网上没有可用于此用例的竞争博客。还尝试了 npm 模块 - okrabyte,这并没有给出 100% 的结果。需要任何指导或帮助。

我也尝试了 AWS Textract 服务。这无助于解析 PAN CARD,因为提取的结果完全不同。

标签: node.jstesseracttesseract.js

解决方案


您需要使用 OCR 来实现这一点。执行此操作有多种选择。正方体是开源的。我希望这个博客可以帮助你在 nodejs 上开始使用 tesseract。

您也可以使用来自不同云提供商的 OCR api 来实现这一点。示例:Microsoft Cognitive Services Vision API、Abbyy Cloud 等。

此外,提高图像质量有助于更准确地提取文本。就个人而言,我已经看到 200 dpi 图像与 600 dpi 图像之间的巨大差异。

希望这可以帮助!


推荐阅读