opencv - 给定表格结构的坐标,使用 Pytesseract 将文本提取到表格数组中
问题描述
我想从扫描的表格中提取文本tesseract
并将其放入与表格具有相同结构的数组中。
我已经习惯opencv
了检测表结构,得到了表关节的坐标以及整个表结构(存入np.array
)。
我想pytesseract
将它存储到:
my_table = [[x, y, 1, 3],
[x, a, 2, 3],
[x, a, 2, 3],
[x, z, 2, 3]]
我使用过商业 OCR 软件,它们总是首先检测表结构,然后识别并提取文本到检测到的表结构。
如何使用 pytesseract 完成第二步?在其他语言中使用 Tesseract 的答案也很棒。
解决方案
推荐阅读
- sql - 用于选择所有 4 个季度中发生的事件的 SQL 函数
- docker - 使用 Docker 会允许我不安装必要的必需品吗?
- python - 24/7 不在线时在物联网应用程序中处理消息传递的模式
- flutter - 在 Flutter 中移除 Material 小部件的水平阴影
- python - Pandas Groupby 在列的特定值上
- linux - LD_LIBRARY_PATH 的问题
- reactjs - React 前端和 Apollo Graphql 服务器部署
- processing - 导入的 processing.py 模块在哪里?
- javascript - JavaScript - 查找所有组合,包括单独和双重组合?
- elasticsearch - Elasticsearch 查找距离一组参考点最远的地方