首页 > 解决方案 > 一种从谷歌云视觉 OCR 获取所有文本的单个连续文本块的方法?

问题描述

问题是我想使用 Google Cloud Vision 扫描收据。收据始终是一块连续的文本。documentTextDetection API 的默认响应被分成块,通常以不同的方式拆分项目名称和价格。这非常有用,但不适用于这种情况。

有没有办法告诉 documentTextDetection api 返回一个块?如果没有,是否有将顶点缝合在一起以获得相同结果的示例?

Sample Receipt Image input:

Beer                        £2.99
Coffee                      £6.99
Chocolate                   £0.99


Response:

{textAnnotations: [
{
  {description: '£2.99'},
  {description: '£6.99'},
  {description: '£0.99'}
},
{
  {description: 'Beer'},
  {description: 'Coffee'},
  {description: 'Chocolate'}
}
]

Desired response where item name matched to price:
{textAnnotations: [
{
  {description: 'Beer      £2.99'},
  {description: 'Coffee .  £6.99'},
  {description: 'Chocolate £0.99'}
}
]

标签: google-apis-explorer

解决方案


您需要通过手动迭代 full_text_annotation、页面、块、部分、单词来组装响应。words.symbol.property.detected_break 中有一个属性可以告诉您何时有中断,在您的情况下,如果符号是该行的最后一个,则该值将等于 3。


推荐阅读