node.js - 从 PAN 卡读取文本
问题描述
我有从 PAN 卡中读取文本的用例。理想情况下,应用程序应具有扫描 PAN 卡的屏幕,并应从那里提取文本。提取的文本将在其他屏幕上自动填充。
我已阅读有关 tesseract npm 模块的信息,但仍然不知道从哪里开始,因为互联网上没有可用于此用例的竞争博客。还尝试了 npm 模块 - okrabyte,这并没有给出 100% 的结果。需要任何指导或帮助。
我也尝试了 AWS Textract 服务。这无助于解析 PAN CARD,因为提取的结果完全不同。
解决方案
您需要使用 OCR 来实现这一点。执行此操作有多种选择。正方体是开源的。我希望这个博客可以帮助你在 nodejs 上开始使用 tesseract。
您也可以使用来自不同云提供商的 OCR api 来实现这一点。示例:Microsoft Cognitive Services Vision API、Abbyy Cloud 等。
此外,提高图像质量有助于更准确地提取文本。就个人而言,我已经看到 200 dpi 图像与 600 dpi 图像之间的巨大差异。
希望这可以帮助!
推荐阅读
- r - Complexheatmap 突出显示特定行
- java - 单击内部回收器视图项将嵌套回收器视图的数据显示到片段
- javascript - 从 javascript 中提取一个元素以写入 html 页面的其他部分
- api - Facebook Messenger API 24 小时后不会发送消息
- python - Python 爬虫 | 从应用程序/ld+json 访问的“URL”参数
- linux - Synology 简单脚本奇怪的行为
- javascript - 获取新创建频道的频道 ID - Discord.js
- angular - 错误 TS2531 对象在角度反应形式中可能为空
- python - 在数据框 groupby 上绘制子条形图
- matlab - 浮点数的单元格有效数字 - Matlab