python - 有没有办法从扫描的图像中检测多种语言?
问题描述
我正在尝试将扫描的图像从tesseract ocr转换为文本,它工作得很好,除了我的图像中有两种语言并且tesseract无法同时检测到这两种语言。我可以将所有图像转换为英语(将阿拉伯语显示为一些垃圾值而不是罗马阿拉伯语),反之亦然,如果我将其转换为阿拉伯语(即我得到所有阿拉伯语文本,英语文本为垃圾) .
我尝试使用 langDetect 检测导出的文本,但鉴于字符和 ASCII 是英文字母,我无法检测到它。
我在这里分享一个图像样本,如果有人能帮助我更好地解决这个问题,那就太好了。
解决方案
只需使用此更新您的代码
lang = 'eng+ara'
ara 代表ara.traineddata
.
还有一件事:阿拉伯语训练的数据可能不在 tesseract 中,所以ara.traineddata
从 git 下载并将其粘贴tessdata
到 tesseract ocr 的文件夹中。
我也给你这个训练数据的链接:链接。
推荐阅读
- excel - 生成唯一的双向数据对并用于在 Excel 中计数
- r - 如何应用 lm 或 glm 以外的模型来乘以插补数据?
- email - 使用 Applescript 接收规则条件电子邮件
- javascript - 下拉菜单中 SVG 的颜色变化
- python - 如何在第三维的中间创建一个全零和一个 1 的 PyTorch 张量?
- java - NullPointerException:尝试调用虚拟方法 'void android.widget.ListView.setAdapter 无法修复
- php - 如何将 PHP cURL 连接拆分为文件?
- java - Microsoft.WindowsAzure.Storage:未找到有效的帐户信息组合 - 尝试编辑 conn 字符串,但没有成功
- javascript - Javascript 检查是否
存在于
- blazor - 如何在 Blazor 中调用子组件的方法