首页 > 解决方案 > 为什么 Tesseract 无法识别较大框中包含的文本?

问题描述

我正在尝试从包含在更宽框中的图像中提取一些非常明显的文本:

在此处输入图像描述

但是,Tesseract 没有成功从中提取文本。如果我删除图像中的框,它就可以正常工作:

在此处输入图像描述

请注意,当我将字体更改为更常见的字体(例如 Arial)时,这两个图像都可以正常工作。但是,我确实需要让它使用当前字体(影响)。

任何有关如何使其工作的帮助将不胜感激!

以下是我当前的代码:

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

img = cv2.imread('without_box.png') #https://i.stack.imgur.com/vrJvd.png
img_text = pytesseract.image_to_string(img)
print('without_box : ', img_text) #returns "without_box :  TEXT"

img = cv2.imread('with_box.png') #https://i.stack.imgur.com/xNEdR.png
img_text = pytesseract.image_to_string(img)
print('with_box : ', img_text) #returns "with_box : "

标签: pythonimage-processingocrtesseractpython-tesseract

解决方案


对于呈现的图像1,您可以自动裁剪包含文本的白色部分,然后运行pytesseract

import cv2
import pytesseract


def crop_and_detect(image):
    thr = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY)[1]
    x, y, w, h = cv2.boundingRect(thr)
    return pytesseract.image_to_string(image[y:y+h, x:x+w])


for img_file in ['vrJvd.png', 'xNEdR.png']:
    img = cv2.imread(img_file, cv2.IMREAD_GRAYSCALE)
    print(img_file, crop_and_detect(img).replace('\f', ''))
    # vrJvd.png TEXT
    #
    # xNEdR.png TEXT
    #
----------------------------------------
System information
----------------------------------------
Platform:      Windows-10-10.0.19041-SP0
Python:        3.9.1
PyCharm:       2021.1.2
OpenCV:        4.5.2
pytesseract:   5.0.0-alpha.20201127
----------------------------------------

1 如果您有与图像处理相关的问题,请提供一组具有代表性的可能输入图像。否则,您可能会为您提供的一两个输入图像获得适当的解决方案,但是在您的实际数据集上测试该解决方案时,您会发现“它不起作用”,并可能发布(很多)后续 -提出问题,这本来可以防止的。


推荐阅读