首页 > 解决方案 > 如何从 Amazon Textract 获取字符级别数据?

问题描述

我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我试图找到一种从每个单词中获取字符坐标的方法。

有什么办法可以找到字符级坐标/字符数据?

标签: amazon-web-servicesocrtext-extractiondata-extractionamazon-textract

解决方案


对于每个“单词”,是的。该文档指定如何:

使用 Amazon Textract:文档页面上的项目位置

https://docs.aws.amazon.com/textract/latest/dg/text-location.html

Amazon Textract 操作返回在文档页面上找到的项目的位置和几何形状。DetectDocumentText 和 GetDocumentTextDetection 返回线条和单词的位置和几何形状,而 AnalyzeDocument 和 GetDocumentAnalysis 返回键值对、表格、单元格和选择元素的位置和几何形状。

要确定项目在文档页面上的位置,请使用块对象中的 Amazon Textract 操作返回的边界框(几何)信息。Geometry 对象包含检测到的项目的两种类型的位置和几何信息:

一个轴对齐的 BoundingBox 对象,包含项目的左上角坐标和宽度和高度。

描述项目轮廓的多边形对象,指定为 Point 对象数组,其中包含每个点的 X(水平轴)和 Y(垂直轴)文档页面坐标。

您可以使用几何信息在检测到的项目周围绘制边界框。有关使用 BoundingBox 和 Polygon 信息在每个单词的开头和结尾处围绕线条和垂直线绘制框的示例,请参阅使用 Amazon Textract 检测文档文本。示例输出类似于以下内容。

检测文档文本

边界框 边界框(BoundingBox)具有以下属性:

高度 – 边界框的高度与整个文档页面高度的比率。

左 – 边界框左上角的 X 坐标,作为整个文档页面宽度的比率。

顶部 – 边界框左上角的 Y 坐标,作为整个文档页面高度的比率。

宽度 – 边界框的宽度与整个文档页面宽度的比率。

每个 BoundingBox 属性都有一个介于 0 和 1 之间的值。该值是整个图像宽度(适用于左侧和宽度)或高度(适用于高度和顶部)的比率。例如,如果输入图像为 700 x 200 像素,并且边界框的左上角坐标为 (350,50) 像素,则 API 返回 Left 值 0.5 (350/700) 和 Top 值 0.25 (50/200)。


推荐阅读