python - 为什么 Tesseract 无法识别较大框中包含的文本?
问题描述
我正在尝试从包含在更宽框中的图像中提取一些非常明显的文本:
但是,Tesseract 没有成功从中提取文本。如果我删除图像中的框,它就可以正常工作:
请注意,当我将字体更改为更常见的字体(例如 Arial)时,这两个图像都可以正常工作。但是,我确实需要让它使用当前字体(影响)。
任何有关如何使其工作的帮助将不胜感激!
以下是我当前的代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
img = cv2.imread('without_box.png') #https://i.stack.imgur.com/vrJvd.png
img_text = pytesseract.image_to_string(img)
print('without_box : ', img_text) #returns "without_box : TEXT"
img = cv2.imread('with_box.png') #https://i.stack.imgur.com/xNEdR.png
img_text = pytesseract.image_to_string(img)
print('with_box : ', img_text) #returns "with_box : "
解决方案
对于呈现的图像1,您可以自动裁剪包含文本的白色部分,然后运行pytesseract
:
import cv2
import pytesseract
def crop_and_detect(image):
thr = cv2.threshold(image, 128, 255, cv2.THRESH_BINARY)[1]
x, y, w, h = cv2.boundingRect(thr)
return pytesseract.image_to_string(image[y:y+h, x:x+w])
for img_file in ['vrJvd.png', 'xNEdR.png']:
img = cv2.imread(img_file, cv2.IMREAD_GRAYSCALE)
print(img_file, crop_and_detect(img).replace('\f', ''))
# vrJvd.png TEXT
#
# xNEdR.png TEXT
#
----------------------------------------
System information
----------------------------------------
Platform: Windows-10-10.0.19041-SP0
Python: 3.9.1
PyCharm: 2021.1.2
OpenCV: 4.5.2
pytesseract: 5.0.0-alpha.20201127
----------------------------------------
1 如果您有与图像处理相关的问题,请提供一组具有代表性的可能输入图像。否则,您可能会为您提供的一两个输入图像获得适当的解决方案,但是在您的实际数据集上测试该解决方案时,您会发现“它不起作用”,并可能发布(很多)后续 -提出问题,这本来可以防止的。
推荐阅读
- asp.net-mvc - 传入字典的模型项是 *** 类型,但此字典需要 *** 类型的模型项
- php - 我缺少什么 php 概念?
- python - 使用 Q 和“gt”Django 根据到期日期过滤对象
- encryption - OpenSSL:不再支持 -pbkdf2 选项?
- mysql - 如何添加时间值以获得一行的总数?
- excel - Excel - 计算满足多个条件的唯一值
- python - 仅当特定列中的数据不存在于表中某处时才插入 MySQL 行
- laravel - SASS 中用户的自定义域
- redis - Redis 用例
- reactjs - React Devtools 未显示
React Native 中的组件