首页 > 解决方案 > 如何在谷歌云平台解压文件夹?

问题描述

我的数据集采用以下形式,带有 3 个标记为 0、5、10 的文件夹,每个文件夹大约有 200,000 张图像:

frames_zip :
           ->0
           ->5
           ->10

我一直在尝试使用批量解压缩云存储文件使用 Dataflow API 解压缩我的文件夹,但这些文件夹被解压缩到一个文件中。我也尝试了这个问题的所有方法,但没有任何效果。

标签: google-cloud-platformjupyter-notebook

解决方案


有几种方法可以实现这一点。

  • 如果是一次,只需
    • 创建一个计算引擎,
    • 在上面安装 zip
    • 从存储中下载您的文件
    • 在本地解压文件
    • 将未压缩的文件和文件夹架构上传到 Cloud Storagegsutil -m cp -r ./local-dir gs://myBucket
    • 删除虚拟机
  • 如果解压缩文件是周期性任务(例如每周)
    • 创建一个 Cloud Build 管道,只需 1 步即可执行与之前使用 VM 完全相同的操作(安装 zip、下载 zip 文件、解压缩并发回未压缩的文件)。
    • 使用Cloud Scheduler定期安排 Cloud Build 管道
    • Cloud Build 是无服务器的,您可以拥有高达1000Gb 的本地存储

diskSizeGb:使用 diskSizeGb 选项为您的构建请求自定义磁盘大小。您可以请求的最大大小为 1000 GB。


推荐阅读