首页 > 解决方案 > Google Cloud - 从网络下载大文件

问题描述

我正在尝试从http://ghtorrent-downloads.ewi.tudelft.nl/mysql/mysql-2020-07-17.tar.gz下载 GhTorrent 转储,大约 127gb

我在云端尝试过,但在 6gb 后它停止了,我相信使用 curl 有大小限制

curl http://ghtorrent... | gsutil cp - gs://MY_BUCKET_NAME/mysql-2020-07-17.tar.gz

我无法使用数据传输,因为我需要指定 url、以字节为单位的大小(我有)和我没有的哈希 MD5,我只能通过将文件放在我的磁盘中来生成。我认为(?)

是否有任何其他选项可以将文件直接下载并上传到云端?我的总磁盘大小为 117gb

标签: google-cloud-platformgoogle-cloud-storage

解决方案


使用存储传输服务为我工作:https ://console.cloud.google.com/transfer/

在移动 TB 之前查看定价,特别是如果您的目标是近线/冷线:https ://cloud.google.com/storage-transfer/pricing


使用以下命令将文件从公共 url 复制到我的存储桶的简单示例Transfer Job

  • 创建文件theTsv.tsv并指定必须复制的文件的完整列表。此示例仅包含一个文件:
TsvHttpData-1.0
http://public-url-pointint-to-the-file
  • 将theTsv.tsv文件上传到您的存储桶或任何可公开访问的 url。在此示例中,我将.tsv文件存储在存储桶中https://storage.googleapis.com/<my-bucket-name>/theTsv.tsv
  • Create a transfer job-List of object URLs
    • 在字段中添加url指向theTsv.tsv文件的那个URL of TSV file
  • 选择目标桶
  • 立即运行

在此处输入图像描述

在此处输入图像描述

我的文件,命名MD5SUB是从源复制url到我的存储桶中,在相同的目录结构下。


推荐阅读