google-cloud-vision - Cloud Vision API 是否有办法获取键值对作为响应,就像他们的 AWS Textract 对应物一样?
问题描述
需要一种以键值格式访问 OCR 数据的方法。Google Cloud Vision API 是否有办法像 AWS Textract 对应物一样获取键值对作为响应?我们目前正在取回边界坐标,但这在我们正在使用的场景中并没有真正帮助。想知道是否有任何 OOB 或我们可能忽略的简单配置设置?在这方面的官方文档中找不到任何相关帮助。
提前致谢。
解决方案
我查了 AWS Textract 和 GCP 有一个类似的产品是Document AI。Document AI 可以处理简单的文件,也可以处理特定类型的表格,如政府表格、发票等。
我不熟悉 AWS Textract 如何检索数据,但 Document AI 中的响应结构类似于 Document -> Pages -> (Paragraphs/Lines/Block) -> Layout -> Text Anchor -> Text Segment。使用这种结构,文本段包含startIndex
和endIndex
。使用这些值,您可以从Document.Text获取整个段落/行/块,并将返回实际值。
您可以在此处查看示例代码实现,以便查看 Document AI 的流程。
推荐阅读
- python - 仅使用 python 从 API 中获取新数据
- time-complexity - 生成所有可能的拓扑类型的图的时间复杂度
- json - Dart颤动FormatException:无效的Unicode转义
- javascript - 以模态响应路由器刷新
- javascript - 如何在不损失图像质量的情况下调整图像大小以适合小型 HTML5 画布?
- javascript - 如何使用链接中的关键字在我的数据库中查找产品?(mongodb,快递)
- android - 如何显示自定义菜单标题?
- javascript - 获取 http://localhost:8000/Stack/script.js net:: Err_Aborted 404 / Django 项目
- flutter - 如何使用锐化滤镜进行颤振摄影?
- android - 在android studio中制作音板,但应用程序不断崩溃