首页 > 解决方案 > Tesseract OCR 无法识别 ^ Circumflex

问题描述

我一直在尝试使用Tesseract来识别具有抑扬符 ^或换句话说是电源符号的文本。Tesseract 从未在任何文档中识别出它。我试图包含希腊语,因为那里可能支持它,但它不起作用。我也浏览了 Github 上发布的官方问题,但那里什么也没有。

我想训练它来检测这个符号,但是当我使用JTessBoxEditior时,它一直能够成功地读取抑扬符。我还确保“ crunch_early_convert_bad_unlv_chs ”为0。

现在我可以解决这个问题,因为它已经在 J​​TessBox 中解决了吗?另外,我怎么知道 Tesseract 在每种语言中训练了哪些字符?

任何帮助是极大的赞赏!

标签: ocrtesseractpython-tesseract

解决方案


推荐阅读