首页 > 解决方案 > 在收据上使用 Tesseract 时如何获得更好的结果?

问题描述

我正在用 Java 构建一个扫描收据的应用程序,并使用 OCR 和 tesseract 库提取所有文本。我已经在两张图片上运行了该程序,一张是我拍摄的,一张来自互联网,我从互联网上得到了一个几乎完美的结果,但是我的图片中有随机字符串。我该如何改变呢?我需要高分辨率的完美质量图像吗?

我试图拍出更好的照片,即使是只有一个词的照片,但我什么也没得到。

Tesseract instance = new Tesseract();
instance.setDatapath(pathToMyTessData); 
instance.setLanguage("fra");

String result = instance.doOCR(new File(myReceiptFile));
System.out.println(result);

我要扫描的收据包含很多(对我无用的)我不想提取的信息,有没有办法只提取食品、日期、总数等......?

PS:我的票长这样

标签: javadatasetocrtesseract

解决方案


也许你应该训练你的 tesseract ,关于这个还有另一篇文章。这里


推荐阅读