python - 在 pytesseract 中应用用户模式
问题描述
我正在使用 pytesseract 尝试检测图像中的某些字符串模式。据我了解,正确使用user patterns
将有助于 pytesseract 更好地扫描特定模式的字符串。但是,我不知道如何让它发挥作用。这个问题有助于澄清要使用我必须使用config
参数 (pytesseract.pytesseract.image_to_string(image, config='),但我不知道如何将其应用于我的案例。
我试图找到这个正则表达式模式:\d{5}\.?\d{5} \.?\d{6} ?\d{5}\.?\d{6} ?\d ?\d{14}
。我应该如何应用它user patterns
来帮助 tesseract 进行更好的 OCR 扫描?
解决方案
有点难找。是的,user-pattern
intesseract
在旧版本的tesseract
.
最后我找到了如何使用user-pattern
in的示例tesseract
。在您的情况下,您可以尝试:
首先,确保版本
tesseract
> = 4.0。(我建议你安装tesseract
5.x,因为我在我的电脑上使用的是5.x)创建一个名为
xxx.patterns
.The 内容的文件(带有UNIX行结尾(换行符)和末尾的空行):
\d{5}\.?\d{5} \.?\d{6} ?\d{5}\.?\d{6} ?\d ?\d{14}
- 然后尝试使用:
pytesseract.image_to_string("test.png", config="--user-patterns yourpath/xxx.patterns")
您也可以参考此文档。
推荐阅读
- windows - 如何为同一服务器实例上的多个 Visual Studio 实例创建多个 IIS 实例?
- java - Socket.io 发出和侦听器函数在 Android 上不起作用
- python - 文件的Python列表理解
- php - 使用 WP ALL IMPORT 时如何将数据插入数据库上的特定表
- swift - 如何创建具有多种颜色的 Apple Watch 复杂功能?
- javascript - 与 Iframe 交互后,如何防止 Iframe 弄乱浏览器的历史记录?
- javascript - GET http://localhost:8080/index.js net::ERR_ABORTED 404(未找到)
- python - 无法使用 exec (Python) 从另一个文件访问外部变量
- reactjs - 反应路由器重复的 URL 参数
- django - “[Errno 8] nodename nor servname provided, or not known” 使用 django-ses 时