首页 > 解决方案 > Azure 表单识别器复制从 PDF 中提取的文本

问题描述

使用 Azure 表单识别器提取值时,许多值显示为重复。

我已经训练了一个自定义模型来标记适当的键值。我发现 OCR 复制了这些框,因此当我使用示例标记工具进行标记时,我经常将一个框放在另一个框内。我需要选择一个并取消选择另一个,以避免显示重复的值。

当我运行模型来预测许多键的新 PDF 时,我也会得到重复的值。

此外,在检查 Result JSON 时,我可以看到许多 Lines 的Bounded Boxes 嵌套或重叠。也就是说,通常您将拥有一个具有有界框和关联文本的线条,而这些文本又具有在线条的有界框内具有有界框的“单词”。

只是为了澄清一下,在 JSON 中,我看到的线条具有重叠或嵌套的有界框,因此是文本。

关于为什么会这样的任何线索?

标签: azure-cognitive-servicesform-recognizer

解决方案


我想知道您是否可以显示您使用的 pdf 文件的示例。当您使用示例 pdf 文档时,没有发生这样的问题,对吧?示例数据文件可以在这里找到: https ://github.com/Azure-Samples/cognitive-services-REST-api-samples/blob/master/curl/form-recognizer/sample_data.zip


推荐阅读