python - 基于 Tesseract 的边界框重建文本
问题描述
我正在从 PDF 文档中提取文本。我发现 tesseract 返回的文本顺序并不总是正确的。我有字符级别的边界框,想用它来重建文本。
问题是 tesseract 不保留空格和换行符的边界框,因此我需要自己找出单词边界和换行符。有没有解决这个问题的标准方法?我想出了一种计算字符之间距离的方法,它适用于一个文档,但不能扩展到其他文档。tesseract 有没有办法在边界框中保留空格和换行符?
解决方案
推荐阅读
- wordpress - 从“摘录”字段内容中批量获取自动发布“字幕”
- r - 如何删除数据框中的孩子的孩子以在 R 中绘制网络?
- java - Android UpdateManager 问题 - 并非所有设备都能获得更新信息
- python - Pandas 引用了哪些项目?
- haskell - windows上的haskell STACK BUILD给出权限错误(重命名)
- python - 如何删除出现在另一个列表中的列表列表的元素
- backup - H2 数据库:如何解锁数据库文件以进行备份?
- spring - 如何从 SqlExceptionHelper 获取有关 REST spring 应用程序的错误信息
- python - Python Kivy:更新标签
- python - 如何在 Qlabel 中的图像顶部从 MouseEvents 绘制多边形