python - 从python中的图像中提取希伯来语文本
问题描述
我想从图像中提取希伯来语文本。
我试过使用 pytesseract,但它会混淆一些字母(例如 ' 而不是 י 或 נ 而不是 כ)
我尝试对图像进行一些操作(例如调整大小、消除噪声和二值化),这有一点帮助,但仍然有很多错误。
我花了几个小时寻找更好的文本提取工具,但找不到。
所以这是我的问题:
A) 有没有我可能错过的工具?
B)如果不是,创建我自己的步骤是什么?
在此先感谢,阿米猜
解决方案
选择正确的 OCR 可能是一件困难的事情,但您似乎已经走在正确的轨道上(如Stackoverflow 帖子中所见)。
一般来说,如果你对 Tesseract 的质量不满意,你似乎(大部分)不走运;从我读到的内容
来看, OCROpus似乎有一个替代方案,尽管这似乎不如 PyTesseract 方法那么简单。
此外,深入研究 Tesseract 的 GitHub 存储库,发现有一个基于 LSTM 的 4.0 版本正在积极开发中,它可能会为您带来更好的结果。我不完全了解 PyTesseract 所调用的 Tesseract 版本,但它可能值得研究,因为替换 Tesseract 可能比认为自己进入一个全新的环境更容易。
PS:至于“如何构建自己的OCR”这个问题,我强烈反对。仅仅收集所有数据并正确掌握基础知识将花费您大量的精力,而且通常不值得您花时间;如果你得到一些有用的东西,它可能仍然比任何提供的库更糟糕。
推荐阅读
- python - 值错误:预期输入数据 X 有 1 个特征,但在高斯混合模型中得到 2 个特征
- python - 为什么我在使用 sympy.dsolve 时得到“'list' object has no attribute 'func'”?
- graphql - Graphql 联合与模式拼接。何时选择一个而不是另一个
- c# - 引用另一个项目的问题
- android - 尝试在后台执行操作时出现 MissingPluginException
- reactjs - 避免在创建反应应用程序中从公共目录缓存工作文件
- node.js - 如果 Promise 永远运行,Node.JS 会发生什么?
- python - 有没有办法以简单的方式重复代码?
- bash - 在文件中搜索模式并删除
- python - 使用 cv2 在距离上裁剪图像