ocr - 在 tesseract OCR 参数中定义多列?
问题描述
我在每页包含 6 列的历史报纸上使用 OCR。目前我使用 FineReader 并为每一列定义文本块。我想使用正方体。Tesseract 得到的列大部分是正确的,但每隔几行它就会读入相邻的列。我想知道是否有一种方法可以设置它的参数,以便六列看起来非常严格。
根据对其他问题的建议,我尝试使用--psm
和hocr并没有取得很大成功。
使用我在 github 上发布的 jpg文件,并使用此代码将其转换为嵌入文本的 pdf,tesseract 1906-07-02-p4.jpg out -l eng+fra --psm 1 pdf
我得到以下结果:
显然,引擎正在制作一个包含缩进线的块,另一个包含冲洗线。
确认这是刷新行的文本输出:
Grocery, Bar and Coffea shop of the trpops
stationed at the Citadel, Cairo.
to received tender for this service by 10 a.m.,
on Saturday, the 14th Jaly, 1906.
application in person to the Commandant,
Citadel, between the hours of 10 a.m. and
12 noon, daily.
—_—_——
有没有办法将 tesseract 约束到某些列边界?(显然我可以通过剪切图像来做到这一点,但我想避免这项工作。)
解决方案
你可以用户
psm 4 OEM 1
或 psm 4 oem 3 以获得更好的文本和准确性
推荐阅读
- eclipse - 无法在 Eclipse 中读取位于 https://ecd-plugin.github.io/update/content.xml 的存储库
- r - 绘制不同几何图形时的图例类型
- c++ - 将 Facebook Proxygen 与 Cmake 链接
- javascript - 如何在 Jupyter 笔记本中将 HTML 元素与 Python 函数链接?
- python - 不同的mysql select语句但睡眠时间很长
- java - Spring EL 无法在 xml 配置文件的 Integer 属性中解析
- solr - Solr:如何对具有多个字段的文档进行 DISTINCT(field1, field2, field3) 搜索?
- dolphindb - 使用 DolphinDB MySQL 插件失败
- php - htacess 重写规则在查询字符串中返回错误值
- java - 解析文本文件并删除java中双引号内的逗号