首页 > 解决方案 > google-cloud-vision 如何读取 pdf 文件

问题描述

我正在使用 Google OCR API,我正在阅读图像和 PDF 文件,我能够阅读和处理图像文件,但是,对于 PDF 文件,根据Google OCR API 文档,他们提到我们需要将我们的文档存储到谷歌云服务。

话虽如此,由于数据机密性,我无法将我的数据存储到 Google Cloud 中,并且想从本地系统上传我的 PDF 以便从 PDF 文件中读取文本。是否可以从本地磁盘上传 PDF 然后对其进行处理而不是将文件上传到 Google Cloud?

标签: google-cloud-vision

解决方案


正如您所说,在本地无法做到这一点。我代表您提交了功能请求[1] ,以便您在那里关注更新。

无论如何,我有一个可能的解决方法可以满足您的数据保密意识。它包括使用云存储客户端库[2]来上传和删除这些文件:

  1. 您在本地拥有 PDF 文件,并且没有包含它的存储桶。
  2. 将其上传到存储桶[3]
  3. 使用该存储桶+文件 URI 通过 Cloud Vision API 读取它并将结果存储在存储桶中
  4. 将结果文件下载到本地机器[4]
  5. 从存储桶中删除 PDF 文件和结果文件[5]

只要您不介意将这些文件放在存储桶中一小段时间,这应该可以工作。


推荐阅读