amazon-web-services - 如何从 Amazon Textract 获取字符级别数据?
问题描述
我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我试图找到一种从每个单词中获取字符坐标的方法。
有什么办法可以找到字符级坐标/字符数据?
解决方案
对于每个“单词”,是的。该文档指定如何:
使用 Amazon Textract:文档页面上的项目位置
https://docs.aws.amazon.com/textract/latest/dg/text-location.html
Amazon Textract 操作返回在文档页面上找到的项目的位置和几何形状。DetectDocumentText 和 GetDocumentTextDetection 返回线条和单词的位置和几何形状,而 AnalyzeDocument 和 GetDocumentAnalysis 返回键值对、表格、单元格和选择元素的位置和几何形状。
要确定项目在文档页面上的位置,请使用块对象中的 Amazon Textract 操作返回的边界框(几何)信息。Geometry 对象包含检测到的项目的两种类型的位置和几何信息:
一个轴对齐的 BoundingBox 对象,包含项目的左上角坐标和宽度和高度。
描述项目轮廓的多边形对象,指定为 Point 对象数组,其中包含每个点的 X(水平轴)和 Y(垂直轴)文档页面坐标。
您可以使用几何信息在检测到的项目周围绘制边界框。有关使用 BoundingBox 和 Polygon 信息在每个单词的开头和结尾处围绕线条和垂直线绘制框的示例,请参阅使用 Amazon Textract 检测文档文本。示例输出类似于以下内容。
边界框 边界框(BoundingBox)具有以下属性:
高度 – 边界框的高度与整个文档页面高度的比率。
左 – 边界框左上角的 X 坐标,作为整个文档页面宽度的比率。
顶部 – 边界框左上角的 Y 坐标,作为整个文档页面高度的比率。
宽度 – 边界框的宽度与整个文档页面宽度的比率。
每个 BoundingBox 属性都有一个介于 0 和 1 之间的值。该值是整个图像宽度(适用于左侧和宽度)或高度(适用于高度和顶部)的比率。例如,如果输入图像为 700 x 200 像素,并且边界框的左上角坐标为 (350,50) 像素,则 API 返回 Left 值 0.5 (350/700) 和 Top 值 0.25 (50/200)。
推荐阅读
- python - Pandas:按未知时间段分组
- json - 通过 JSON Id 在 ReactJS 中的特定页面路由
- javascript - 登录后CoreUI React Re-Routing无法正常工作
- android - 是否可以在结果集上使用 SQLite 模式匹配?
- ios - Swift 闭包和执行顺序
- c++ - 使用指针分配数组值
- php - 如果我的评论表中只有他们的 ID,我还能以某种方式获取对图像发表评论的人的用户名吗
- sql-server - 使用 SQL Server 在 TEXT 列中指定 patindex 值后查询日期值
- c# - Rebus 中未处理的随机消息
- c# - Linq 查询从多个表中获取计数