ocr - Tesseract 无法识别明文
问题描述
我正在尝试使用 Tesseract 在某些图像上查找文本,但在处理该图像时遇到了问题:
文字是葡萄牙语,虽然写得很清楚Imagem
,但 Tesseract 只给了我ot
。
我正在使用的命令是tesseract tmp.jpg out --psm 7 -l por
,我尝试改变--psm
参数但没有运气。
我缺少什么可以提高识别度的东西吗?
解决方案
Tesseract 尝试根据图像中的黑色像素来猜测字体大小,因此最好在白色背景上使用黑色文本。
推荐阅读
- angular - 如何通过在拦截器中调用 API 服务方法来避免无限次 API 命中
- amazon-web-services - 将 spark 分区写入不同的 S3 路径
- amazon-sqs - Spring Cloud AWS SQS ON_SUCCESS 删除策略能否造成无限循环?还是有重试?
- mongodb - 分析节点是否接收读取请求?
- c# - Unity 3D - Sphere Collider 下的“Is Trigger”不允许我的火球/弹丸飞行
- python - How to dict or data check keys in pydantic
- c# - WPF DataGrid - 在创建新行时将 DefaultValue 分配给 ComboBoxColumn
- angular - Angular 测试总是通过测试,即使它是错误的
- java - 如何解析地点 XML api 并在谷歌地图上标记
- puppeteer - PuppeteerSharp:带有滚动的 PDF 生成页面