首页 > 解决方案 > 如何从扫描的文档中提取垂直标签和值?

问题描述

我正在制作一个文档解析器,它从文档中提取数据字段并以结构化方式存储它们。我的数据集中的每个字段都是水平的,易于提取。

在此处输入图像描述

但是该模型在垂直字段上失败,例如我想从此类图像中提取发票编号和日期,而这在任何类型的预训练 OCR 中都是不可能的 -

在此处输入图像描述

标签: pythonmachine-learningdeep-learningdata-miningtext-classification

解决方案


将 png 转换为 pdf 然后使用 pdf2txt.py -V


推荐阅读