首页 > 解决方案 > Azure 计算机视觉 API - PDF 文件上的 OCR 到文本

问题描述

我正在尝试利用计算机视觉 API 对作为扫描文档但被视为图像 PDF 的 PDF 文件进行 OCR。

我已经对其进行了测试,它告诉我 PDF 是“InvalidImageFormat”、“输入数据不是有效图像”。当我在 PNG 上测试它时,它工作得很好。

无论如何要对 PDF 图像使用 API,还是有一个 Azure API 可以结合使用来执行 PDF > PNG > Text?

标签: pdfocrmicrosoft-cognitive

解决方案


编辑

由于回答了额外的服务,虽然我没有亲自尝试过其中一些,但它们可能适合这个目的。

https://docs.microsoft.com/en-us/azure/search/cognitive-search-concept-intro

并且在未来的某个时候,当它进入 GA 时。 https://aws.amazon.com/textract/

原始答案

不幸的是,Azure 的计算机视觉 API 没有 PDF 集成。要使用 Azure 计算机视觉,您需要自己将 pdf 更改为图像(JPG、PNG、BMP、GIF)。

谷歌现在确实提供了 pdf 集成,到目前为止,我已经从我的测试中看到了一些非常好的结果。

这是通过视觉客户端的 asyncBatchAnnotateFiles 方法完成的(我一直在使用 API 的 NodeJS 变体)

它可以处理多达 2000 个页面的文件,结果分为 20 个页面段并输出到 Google Cloud Storage。

https://cloud.google.com/vision/docs/pdf


推荐阅读