首页 > 解决方案 > OCR AWS Textract 服务无法区分上标/指数

问题描述

我正在使用 Textract AWS 服务。

  1. 像 10 10这样的值被读取为 1010。这会导致读取错误的数据。
  2. 此外,单元格内的数据边界有时会与包含单元格的边界重叠。

如何解决这些问题?

标签: javaamazon-web-servicesocramazon-textract

解决方案


你不能自己解决这个问题。您将不得不提出支持票,并希望他们能解决问题。AWS 不断训练他们的预测模型以使其变得更好。但是由于他们的模型已经使用数百万种不同类型的文档进行了训练,因此在识别单元格或表单元素时会出现错误。

仅在一种形式上经过专门训练的模型在该形式上的表现要好得多。你必须为了多样性而牺牲准确性。


推荐阅读