首页 > 解决方案 > Azure ComputerVision OCR 和 PDF 格式

问题描述

我发现了几个关于是否以及如何使用认知服务进行 OCR 的老问题。在认知服务上,我可以找到一个分步说明,告诉我如何完成 PDF 中的 OCR。当我像页面底部的示例那样做时,我仍然得到那个 unsuppertdMediaType 结果

{ "code": "UnsupportedMediaType", "requestId": "c427e1c7-3f99-4a74-a36f-1620e68e3b64", "message": "支持的媒体类型:application/octet-stream、multipart/form-data 或 application/json" }

当我将 PDF 更改为图像时,一切都很好。我目前关注认知服务 ,但虽然请求似乎很好,但文档类型仍然不受支持。我打电话:

https://.cognitiveservices.azure.com/vision/v2.0/ocr?language=de&detectOrientation=true&Ocp-Apim-Subscription-Key=&Content-Type=application/octet-stream

当然,该文件包含在正文中。

我没有发布 C# 或 PowerShell,因为问题确实似乎与我来自上述 URL 的请求有关。

有人可以帮助我了解如何使用 Azure ComputerVision 从 PDF 中获取文本的有效请求吗?

标签: computer-visionmicrosoft-cognitiveazure-cognitive-services

解决方案


您收到此错误是因为 OCR 不支持 PDF 根据文档

OCR API 适用于满足以下要求的图像:

  • 图像必须以 JPEG、PNG、GIF 或 BMP 格式呈现。
  • 输入图像的大小必须介于 50 x 50 和 4200 x 4200 像素之间。
  • 图像中的文本可以旋转 90 度的任意倍数加上最大 40 度的小角度。

话虽如此,您可以使用新的 Read API,因为它根据文档支持 PDF

读取 API 适用于满足以下要求的图像:

  • 图像必须以 JPEG、PNG、BMP、PDF 或 TIFF 格式呈现。
  • 图像的尺寸必须介于 50 x 50 和 10000 x 10000 像素之间。PDF 页面必须为 17 x 17 英寸或更小。
  • 图像的文件大小必须小于 20 兆字节 (MB)。

如果您遵循要求并使用正确的端点,就可以保证工作!


推荐阅读