google-cloud-vision - google-cloud-vision 如何读取 pdf 文件
问题描述
我正在使用 Google OCR API,我正在阅读图像和 PDF 文件,我能够阅读和处理图像文件,但是,对于 PDF 文件,根据Google OCR API 文档,他们提到我们需要将我们的文档存储到谷歌云服务。
话虽如此,由于数据机密性,我无法将我的数据存储到 Google Cloud 中,并且想从本地系统上传我的 PDF 以便从 PDF 文件中读取文本。是否可以从本地磁盘上传 PDF 然后对其进行处理而不是将文件上传到 Google Cloud?
解决方案
正如您所说,在本地无法做到这一点。我代表您提交了功能请求[1] ,以便您在那里关注更新。
无论如何,我有一个可能的解决方法可以满足您的数据保密意识。它包括使用云存储客户端库[2]来上传和删除这些文件:
- 您在本地拥有 PDF 文件,并且没有包含它的存储桶。
- 将其上传到存储桶[3]
- 使用该存储桶+文件 URI 通过 Cloud Vision API 读取它并将结果存储在存储桶中
- 将结果文件下载到本地机器[4]
- 从存储桶中删除 PDF 文件和结果文件[5]
只要您不介意将这些文件放在存储桶中一小段时间,这应该可以工作。
推荐阅读
- azure-databricks - Databricks 写入性能
- javascript - html 中的 Javascript 脚本不会从 winform webBrowser 控件触发
- vba - Microsoft Word 页码部分-节-页
- xmlhttprequest - 发布到 RESTful Web 服务
- mongodb - 如何在 mongodb 中使用 $lookup 查询子文档?
- python - GStreamer:我们仍然有活跃的 TURN 刷新。考虑在释放代理之前使用 nice_agent_close_async() 修剪它们
- javascript - 如何更新对象数组中的特定状态?
- python - 如何从宽数据框中使用 seaborn 制作多个图
- node.js - 错误:找不到模块 'node-releases/data/processed/envs.json' #21988
- javascript - 如何获取此表格将回复发送到我的电子邮件?我需要添加什么?