首页 > 解决方案 > 告诉 Teseract 替换一个被其他人识别的字符

问题描述

我正在做一堆旧报纸的 ocr。Tesseract 做得非常好,但只有一个问题:

将几乎(99%)的“o”字符检测为“º”。

如果一个排除“º”Tesseract 的白名单字符列表没有替换为最相同的字符列表(可能是“o”),那么它只会拒绝识别。所以“Hola”这个词成为公认的有“Hla”。

那么你知道用“o”字符替换所有“º”的配置字符串吗?

我可以简单地使用 sed 来处理 txt 输出,但我需要它来输出 PDF。

提前致谢

标签: tesseract

解决方案


尝试替换Tesseract 3.03–3.05unicharambigs文件中嵌入的.traineddata文件。

https://github.com/tesseract-ocr/tessdoc/blob/master/Training-Tesseract-3.03%E2%80%933.05.md#the-unicharambigs-file


推荐阅读