ocr - Tesseract OCR 无法识别 ^ Circumflex
问题描述
我一直在尝试使用Tesseract来识别具有抑扬符 ^或换句话说是电源符号的文本。Tesseract 从未在任何文档中识别出它。我试图包含希腊语,因为那里可能支持它,但它不起作用。我也浏览了 Github 上发布的官方问题,但那里什么也没有。
我想训练它来检测这个符号,但是当我使用JTessBoxEditior时,它一直能够成功地读取抑扬符。我还确保“ crunch_early_convert_bad_unlv_chs ”为0。
现在我可以解决这个问题,因为它已经在 JTessBox 中解决了吗?另外,我怎么知道 Tesseract 在每种语言中训练了哪些字符?
任何帮助是极大的赞赏!
解决方案
推荐阅读
- c# - 在文本框中统一显示 json 结果
- java - Visual Studio 代码:在 docker compose 中调试 java spring boot 应用程序
- node.js - Node.js 在 Reactjs 应用程序中不起作用 - nginx
- python - 如何使用 Python 脚本加速预测
- mysql - 使用多个父 & 或子句的雄辩的复选框搜索查询
- c# - 在服务器端 Blazor 中使用 SignInManager
- python - 计算不卖的天数
- excel - 在 Excel 中使用 vba 从“查找和替换”框或搜索框中复制和导出数据
- scheduled-tasks - 当 Sleuth 存在时,ShedLock 不锁定
- c# - LAB 到 XYZ 和 XYZ 到 RGB 颜色空间转换算法