python - 如何从扫描的文档中提取垂直标签和值?
问题描述
我正在制作一个文档解析器,它从文档中提取数据字段并以结构化方式存储它们。我的数据集中的每个字段都是水平的,易于提取。
但是该模型在垂直字段上失败,例如我想从此类图像中提取发票编号和日期,而这在任何类型的预训练 OCR 中都是不可能的 -
解决方案
将 png 转换为 pdf 然后使用 pdf2txt.py -V
推荐阅读
- python - 如何让 pip 代理与公司证书链一起使用?
- php - 如何在多张图片上传中同时使用 id 和 name?
- node.js - 如何在 VS Code 上为 ejs 文件获得正确的语法高亮显示?
- julia - 均值函数错误值
- ruby - 没有 Rails 的 ActiveRecord 6(多数据库)
- r - 替换函数内 data.frame 中的值(与 apply 一起使用)
- typescript - 打字稿中的“静态侧”和“实例侧”到底是什么?
- python - 如果先验条件为真,则从嵌套字典中打印一个值
- sql-server - SQL Server 数据库设计 - 1 表与 2 表
- google-apps-script - 使用 Google 表格下拉菜单更改单元格背景颜色而不是文本