首页 > 解决方案 > 从python中的图像中提取希伯来语文本

问题描述

我想从图像中提取希伯来语文本。

我试过使用 pytesseract,但它会混淆一些字母(例如 ' 而不是 י 或 נ 而不是 כ)

我尝试对图像进行一些操作(例如调整大小、消除噪声和二值化),这有一点帮助,但仍然有很多错误。

我花了几个小时寻找更好的文本提取工具,但找不到。

所以这是我的问题:

A) 有没有我可能错过的工具?

B)如果不是,创建我自己的步骤是什么?

在此先感谢,阿米猜

标签: pythoncomputer-visionocrhebrewpython-tesseract

解决方案


选择正确的 OCR 可能是一件困难的事情,但您似乎已经走在正确的轨道上(如Stackoverflow 帖子中所见)

一般来说,如果你对 Tesseract 的质量不满意,你似乎(大部分)不走运;从我读到的内容 来看, OCROpus似乎有一个替代方案,尽管这似乎不如 PyTesseract 方法那么简单。
此外,深入研究 Tesseract 的 GitHub 存储库,发现有一个基于 LSTM 的 4.0 版本正在积极开发中,它可能会为您带来更好的结果。我不完全了解 PyTesseract 所调用的 Tesseract 版本,但它可能值得研究,因为替换 Tesseract 可能比认为自己进入一个全新的环境更容易。

PS:至于“如何构建自己的OCR”这个问题,我强烈反对。仅仅收集所有数据并正确掌握基础知识将花费您大量的精力,而且通常不值得您花时间;如果你得到一些有用的东西,它可能仍然比任何提供的库更糟糕。


推荐阅读