首页 > 解决方案 > Tesseract v4.1.0 & v5.0.0 OCR 命令行实用程序找不到单独的打印 H 和 8 个字符

问题描述

我正在尝试 OCR Courier New 26 Font Size 8 和 H 字符均匀分布在 8.5" x 11" 页面上。它是使用喷墨打印机在透明胶片上打印的,然后使用相机拍摄。

我正在使用以下命令:

tesseract.exe --psm x [INPUT_FILE_NAME].bmp [OUTPUT_FILE_NAME] hocr
    where x is 0-13

我想要 hocr 函数,因为我真的想要 X,Y 坐标作为输出的一部分。但是,OCR 的成功非常糟糕,以至于无法使用。我已经尝试了所有 PSM 值 (0-13),但没有一个比任何其他值更好。这是第一行的输出示例。它不能正确识别单个字符。

  <span class='ocrx_word' id='word_1_1' title='bbox 804 123 884 143; x_wconf 2'>Sree</span>
  <span class='ocrx_word' id='word_1_2' title='bbox 889 123 915 140; x_wconf 30'>ea</span>
  <span class='ocrx_word' id='word_1_3' title='bbox 920 121 1018 137; x_wconf 4'>EAST</span>
  <span class='ocrx_word' id='word_1_4' title='bbox 1024 124 1083 129; x_wconf 11'>ay</span>
  <span class='ocrx_word' id='word_1_5' title='bbox 1088 105 1233 129; x_wconf 28'>anni</span>
  <span class='ocrx_word' id='word_1_6' title='bbox 1246 102 1336 116; x_wconf 41'>TT</span>
  <span class='ocrx_word' id='word_1_7' title='bbox 2421 39 2423 41; x_wconf 56'>|</span>

下面的两张图片分别代表了打印+相机图片的原始和结果。我知道输出更暗,但我会认为它足以获得至少一些正确的识别。

我要让角色变得更大,并将它们分散得更多。

Tesseact 还有其他选择可以帮助我吗?我还能用原件做些什么来让我取得更大的成功(不同的字符、字体或大小)?除了 Tesseract 之外,还有其他工具可能更适合这项任务吗?

谢谢一堆。

原始字符集是使用 word 创建的。 图中的图像不是很好,但它应该足够清晰,可以做得比它好得多。

标签: windowscommand-lineocrtesseract

解决方案


推荐阅读