首页 > 解决方案 > 为什么 Tesseract OCR 使用 Otsu 二值化?

问题描述

为什么 Tesseract OCR 引擎使用全局阈值技术,例如 Otsu 二值化?局部阈值技术(例如 Sauvola、Niblack 等)在从图像中删除文本方面不是更有效吗?

标签: ocrtesseractimage-thresholding

解决方案


Tesseract 被用于谷歌图书项目和 AFAIK,他们运行测试以获得最佳二值化,而 Otsu 是最通用的。如果 Otsu 不适合您的情况,您可以在将图像发送到 tesseract 之前使用其他二值化算法。


推荐阅读