google-cloud-platform - 如何在谷歌云平台解压文件夹?
问题描述
我的数据集采用以下形式,带有 3 个标记为 0、5、10 的文件夹,每个文件夹大约有 200,000 张图像:
frames_zip :
->0
->5
->10
我一直在尝试使用批量解压缩云存储文件使用 Dataflow API 解压缩我的文件夹,但这些文件夹被解压缩到一个文件中。我也尝试了这个问题的所有方法,但没有任何效果。
解决方案
有几种方法可以实现这一点。
- 如果是一次,只需
- 创建一个计算引擎,
- 在上面安装 zip
- 从存储中下载您的文件
- 在本地解压文件
- 将未压缩的文件和文件夹架构上传到 Cloud Storage
gsutil -m cp -r ./local-dir gs://myBucket
- 删除虚拟机
- 如果解压缩文件是周期性任务(例如每周)
- 创建一个 Cloud Build 管道,只需 1 步即可执行与之前使用 VM 完全相同的操作(安装 zip、下载 zip 文件、解压缩并发回未压缩的文件)。
- 使用Cloud Scheduler定期安排 Cloud Build 管道
- Cloud Build 是无服务器的,您可以拥有高达1000Gb 的本地存储
diskSizeGb:使用 diskSizeGb 选项为您的构建请求自定义磁盘大小。您可以请求的最大大小为 1000 GB。
推荐阅读
- sql-server - 如果磁盘标签发生更改,如何重新配置 SQL Server 群集?
- redux - 我试图避免在 state reducer 中调用 dispatch,我不确定 redux-thunk 是否是我需要的解决方案
- c# - 对 Float 与 Double 基准测试感到困惑
- java - Ktor 创建一个额外的 Java 进程
- python - 我需要我的脚本运行几行直到任务完成
- c++ - "向量" 和有什么不一样
v(100)”和“向量 v[100]”? - php - 从安全的 SSL 路径调用和运行这个 php curl 函数的“正确方法”是什么?
- html - 我的 home 和 about 链接是否超链接到正确的页面?
- amazon-web-services - 用于 Lambda 的 VPC Rekognition 终端节点
- apache - 允许覆盖虚拟主机中的路径