首页 > 解决方案 > Cloud Vision API 是否有办法获取键值对作为响应,就像他们的 AWS Textract 对应物一样?

问题描述

需要一种以键值格式访问 OCR 数据的方法。Google Cloud Vision API 是否有办法像 AWS Textract 对应物一样获取键值对作为响应?我们目前正在取回边界坐标,但这在我们正在使用的场景中并没有真正帮助。想知道是否有任何 OOB 或我们可能忽略的简单配置设置?在这方面的官方文档中找不到任何相关帮助。

提前致谢。

标签: google-cloud-visionamazon-textract

解决方案


我查了 AWS Textract 和 GCP 有一个类似的产品是Document AI。Document AI 可以处理简单的文件,也可以处理特定类型的表格,如政府表格、发票等。

我不熟悉 AWS Textract 如何检索数据,但 Document AI 中的响应结构类似于 Document -> Pages -> (Paragraphs/Lines/Block) -> Layout -> Text Anchor -> Text Segment。使用这种结构,文本段包含startIndexendIndex使用这些值,您可以从Document.Text获取整个段落/行/块,并将返回实际值。

您可以在此处查看示例代码实现,以便查看 Document AI 的流程。


推荐阅读