首页 > 解决方案 > Python Tesseract 没有返回任何内容,甚至没有返回空字符串

问题描述

我在 JupyterLab 上运行我的 tesseract,根据 stackoverflow,我费了些力气才使 PATH 正确,并且我费力地阅读了一些关于 tesseract 返回空字符串的问题,但就我而言,我的 tesseract 代码甚至没有返回空字符串字符串,根本没有输出。

from PIL import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
img = Image.open("MP_5x3_080320-236x300.jpg")
text = pytesseract.image_to_string(img, lang='eng')
text

我也试过:

from PIL import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
img = Image.open("MP_5x3_080320-236x300.jpg")
text = pytesseract.image_to_string(img, lang='eng')
type(text)

查看“文本”变量的类型,假设必须有一些输出,但没有。即使“类型(文本)”仍然没有输出

到底有什么问题?谁能启发我?

非常感谢!!!

标签: pythonpython-tesseract

解决方案


可能是 pytesseract 返回结尾带有 '\n\x0c' 的文本字符串(这会清除控制台)。尝试

text = pytesseract.image_to_string(img, lang='eng', config='-c page_separator=""')

您可能会发现使用页面分段定义材料更成功,如下所示:https ://www.analyticsvidhya.com/blog/2020/05/build-your-own-ocr-google-tesseract-opencv/

单个单词的示例(单行将是 7 而不是 8)

text = pytesseract.image_to_string(img, lang='eng', config='--psm 8 -c page_separator=""')

推荐阅读