tesseract - 告诉 Teseract 替换一个被其他人识别的字符
问题描述
我正在做一堆旧报纸的 ocr。Tesseract 做得非常好,但只有一个问题:
将几乎(99%)的“o”字符检测为“º”。
如果一个排除“º”Tesseract 的白名单字符列表没有替换为最相同的字符列表(可能是“o”),那么它只会拒绝识别。所以“Hola”这个词成为公认的有“Hla”。
那么你知道用“o”字符替换所有“º”的配置字符串吗?
我可以简单地使用 sed 来处理 txt 输出,但我需要它来输出 PDF。
提前致谢
解决方案
尝试替换Tesseract 3.03–3.05unicharambigs
文件中嵌入的.traineddata
文件。
推荐阅读
- node.js - 如何从 REACT JS 获取 JSON 以在 NODE js 中实现
- django - 我的两个自定义用户模型不能登录失败
- postgresql - 我不能在 PostgreSQL 中以参数方式从 current_date 中减去天数
- xml - VB.NET Winform:如何通过 XML 翻译对象 Text 属性
- c++ - 我们是否需要序列化 VAO 和 VBO
- javascript - react-chartjs-2 响应式热刷新(饼图)
- python - python 类型提示应该如何要求一个值具有给定的属性?
- phpmyadmin - 在没有 SSL/HTTPS 的情况下运行 phpMyAdmin
- javascript - 如何在模块导入/配置中设置 .env 变量
- jquery - AJAX、jQuery、Javascript、表单提交和 setTimout() 问题