首页 > 解决方案 > 是否可以使用aws的多类分类器来识别文本的给定位置?

问题描述

我正在使用 AWS SageMaker,我想用给定的文本创建一些东西,它可以识别该描述的位置。可能吗?

标签: amazon-web-servicesamazon-s3classificationamazon-sagemakermulticlass-classification

解决方案


如果除了您希望模型识别的文本之外没有其他类,您可能不需要多类分类器。

可以使用Amazon SageMaker训练您自己的文本检测模型,并使用对象检测算法使用带有标记示例的数据集进行训练,但这对于现有解决方案可用的问题变得相当复杂。

如果您尝试检测的文本的外观每次都相同,那么您的问题空间就会从尝试解释可变文本减少到只需收集足够的示例并对文本形式的“模式”执行目标检测。请注意,如果文本以不同的字体或样式出现,则通用对象检测方法不会动态解释它,并且可能需要基于 OCR 的解决方案。


更广泛地说,对于 AWS 上图像中的文本识别,您有很多选择:

Amazon Rekognition有一种DetectText方法可以让您轻松地在图像中查找文本。如果它是一个小的或简单的短语,带有字母数字字符,这应该非常适合您的用例。

Amazon Textract将帮助您执行 OCR(光学字符识别),同时保留源的结构。这对文档和表格非常有用,但听起来它可能不适用于您的用例。

AWS 市场还将提供第三方供应商提供的托管选项。文本区域识别的一个例子是RocketML中的一个。

我还建议研究一些很棒的开源工具:用于确定文本边界框的 OpenCV,以及用于 OCR 和文本提取的 Tesseract。这篇博文很好地介绍了一起使用它们的过程。

任何这些都将有助于解决您在 AWS 上执行 OCR/文本识别的问题,但最佳选择取决于您当前和未来的需求,以及您希望以多快的速度实施该功能。


推荐阅读