java - OCR AWS Textract 服务无法区分上标/指数
问题描述
我正在使用 Textract AWS 服务。
- 像 10 10这样的值被读取为 1010。这会导致读取错误的数据。
- 此外,单元格内的数据边界有时会与包含单元格的边界重叠。
如何解决这些问题?
解决方案
你不能自己解决这个问题。您将不得不提出支持票,并希望他们能解决问题。AWS 不断训练他们的预测模型以使其变得更好。但是由于他们的模型已经使用数百万种不同类型的文档进行了训练,因此在识别单元格或表单元素时会出现错误。
仅在一种形式上经过专门训练的模型在该形式上的表现要好得多。你必须为了多样性而牺牲准确性。
推荐阅读
- angular - Angular-如何为可重用组件添加不同的样式?
- javascript - 在 Cloudflare worker 上使用 HTMLRewriter 设置属性
- database - Flyway 最佳实践:一个大型迁移脚本与许多增量脚本
- python - 表单对象在 Django 中不可迭代
- sql - 当我对 ORACLE 中的列执行 Max 时,如何使用来自另一个表的 Join?
- sql - SELECT列表表达式引用了既不分组也不聚合的列xxx,为什么需要使用子查询?
- java - 在 Docker 上运行时,使用 Opensagres 和 Apache poi 将 DOCX 转换为 PDF 会导致符号丢失
- java - AssertJ Swing 的设置 - 测试 GUI
- node.js - 增加排序键 dynamoDB node.js
- import - OroCRM:导入 csv 联系人功能不起作用。我如何解决它?