amazon-web-services - 是否可以使用aws的多类分类器来识别文本的给定位置?
问题描述
我正在使用 AWS SageMaker,我想用给定的文本创建一些东西,它可以识别该描述的位置。可能吗?
解决方案
如果除了您希望模型识别的文本之外没有其他类,您可能不需要多类分类器。
您可以使用Amazon SageMaker训练您自己的文本检测模型,并使用对象检测算法使用带有标记示例的数据集进行训练,但这对于现有解决方案可用的问题变得相当复杂。
如果您尝试检测的文本的外观每次都相同,那么您的问题空间就会从尝试解释可变文本减少到只需收集足够的示例并对文本形式的“模式”执行目标检测。请注意,如果文本以不同的字体或样式出现,则通用对象检测方法不会动态解释它,并且可能需要基于 OCR 的解决方案。
更广泛地说,对于 AWS 上图像中的文本识别,您有很多选择:
Amazon Rekognition有一种DetectText
方法可以让您轻松地在图像中查找文本。如果它是一个小的或简单的短语,带有字母数字字符,这应该非常适合您的用例。
Amazon Textract将帮助您执行 OCR(光学字符识别),同时保留源的结构。这对文档和表格非常有用,但听起来它可能不适用于您的用例。
AWS 市场还将提供第三方供应商提供的托管选项。文本区域识别的一个例子是RocketML中的一个。
我还建议研究一些很棒的开源工具:用于确定文本边界框的 OpenCV,以及用于 OCR 和文本提取的 Tesseract。这篇博文很好地介绍了一起使用它们的过程。
任何这些都将有助于解决您在 AWS 上执行 OCR/文本识别的问题,但最佳选择取决于您当前和未来的需求,以及您希望以多快的速度实施该功能。
推荐阅读
- angular - 总和不适用于使用 forEach 的角度
- c# - 继承 NLog WrapperTargetBase 用于同步日志记录
- xml - 将 XML/XSD/WSDL 的混合转换为 java 类
- ios - Swift - 在加载时重命名 UILabel
- hl7-fhir - 我们可以更新 FHIR 中的捆绑包吗?
- azure - 使用 Azure 逻辑应用在 Azuresql 数据库中插入行
- ios - AWS Amplify Swift API 登录 iOS 移动应用程序
- android - 使用 ThreetenBp 解析 DateTime 会导致 DateTimeParseException 或不完整的字符串错误
- angular - 我的浮动标签没有按计划运行,已经尝试过不同的输入焦点但没有成功
- java - 如何计算txt文件中写入的字母数量