首页 > 解决方案 > 基于 Tesseract 的边界框重建文本

问题描述

我正在从 PDF 文档中提取文本。我发现 tesseract 返回的文本顺序并不总是正确的。我有字符级别的边界框,想用它来重建文本。

问题是 tesseract 不保留空格和换行符的边界框,因此我需要自己找出单词边界和换行符。有没有解决这个问题的标准方法?我想出了一种计算字符之间距离的方法,它适用于一个文档,但不能扩展到其他文档。tesseract 有没有办法在边界框中保留空格和换行符?

标签: pythonocrtesseractpython-tesseract

解决方案


推荐阅读