首页 > 解决方案 > 有没有办法从扫描的图像中检测多种语言?

问题描述

我正在尝试将扫描的图像从tesseract ocr转换为文本,它工作得很好,除了我的图像中有两种语言并且tesseract无法同时检测到这两种语言。我可以将所有图像转换为英语(将阿拉伯语显示为一些垃圾值而不是罗马阿拉伯语),反之亦然,如果我将其转换为阿拉伯语(即我得到所有阿拉伯语文本,英语文本为垃圾) .

我尝试使用 langDetect 检测导出的文本,但鉴于字符和 ASCII 是英文字母,我无法检测到它。

我在这里分享一个图像样本,如果有人能帮助我更好地解决这个问题,那就太好了。

标签: pythonocrtesseract

解决方案


只需使用此更新您的代码

lang = 'eng+ara'

ara 代表ara.traineddata.

还有一件事:阿拉伯语训练的数据可能不在 tesseract 中,所以ara.traineddata从 git 下载并将其粘贴tessdata到 tesseract ocr 的文件夹中。

我也给你这个训练数据的链接:链接


推荐阅读