python - Python Tesseract 没有返回任何内容,甚至没有返回空字符串
问题描述
我在 JupyterLab 上运行我的 tesseract,根据 stackoverflow,我费了些力气才使 PATH 正确,并且我费力地阅读了一些关于 tesseract 返回空字符串的问题,但就我而言,我的 tesseract 代码甚至没有返回空字符串字符串,根本没有输出。
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
img = Image.open("MP_5x3_080320-236x300.jpg")
text = pytesseract.image_to_string(img, lang='eng')
text
我也试过:
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
img = Image.open("MP_5x3_080320-236x300.jpg")
text = pytesseract.image_to_string(img, lang='eng')
type(text)
查看“文本”变量的类型,假设必须有一些输出,但没有。即使“类型(文本)”仍然没有输出
到底有什么问题?谁能启发我?
非常感谢!!!
解决方案
可能是 pytesseract 返回结尾带有 '\n\x0c' 的文本字符串(这会清除控制台)。尝试
text = pytesseract.image_to_string(img, lang='eng', config='-c page_separator=""')
您可能会发现使用页面分段定义材料更成功,如下所示:https ://www.analyticsvidhya.com/blog/2020/05/build-your-own-ocr-google-tesseract-opencv/
单个单词的示例(单行将是 7 而不是 8)
text = pytesseract.image_to_string(img, lang='eng', config='--psm 8 -c page_separator=""')
推荐阅读
- html - 每当在存储的文本中更改信息时,如何存储文件版本控制?
- python - 无法在 M1 Bigsur 上导入枕头
- powershell - 使用 Add-Content PowerShell 将文本添加到现有文件的新行
- java - 如何在 Kotlin 中抑制检查式警告
- linux - cp: -r 未指定;省略目录 '/content/GrassCarp'
- reactjs - 如何使用打字稿将类型组合成一种类型并做出反应?
- yahoo - 通过 Roundcube 请求 Yahoo OAuth 范围的问题
- java - 将 IKVM 与 Tomcat 和 intellej 一起使用
- django - 如何更改表 django 中的数据?
- node.js - Nodejs fast-csv 和 Promise