首页 > 解决方案 > 在 tesseract OCR 参数中定义多列?

问题描述

我在每页包含 6 列的历史报纸上使用 OCR。目前我使用 FineReader 并为每一列定义文本块。我想使用正方体。Tesseract 得到的列大部分是正确的,但每隔几行它就会读入相邻的列。我想知道是否有一种方法可以设置它的参数,以便六列看起来非常严格。

根据对其他问题的建议,我尝试使用--psmhocr并没有取得很大成功。

使用我在 github 上发布的 jpg文件,并使用此代码将其转换为嵌入文本的 pdf,tesseract 1906-07-02-p4.jpg out -l eng+fra --psm 1 pdf我得到以下结果:

在此处输入图像描述

显然,引擎正在制作一个包含缩进线的块,另一个包含冲洗线。

确认这是刷新行的文本输出:


Grocery, Bar and Coffea shop of the trpops
stationed at the Citadel, Cairo.

to received tender for this service by 10 a.m.,
on Saturday, the 14th Jaly, 1906.

application in person to the Commandant,
Citadel, between the hours of 10 a.m. and
12 noon, daily.
—_—_——

有没有办法将 tesseract 约束到某些列边界?(显然我可以通过剪切图像来做到这一点,但我想避免这项工作。)

标签: ocrtesseract

解决方案


你可以用户

psm 4 OEM 1

或 psm 4 oem 3 以获得更好的文本和准确性


推荐阅读