首页 > 解决方案 > azure blob 上传 parquet 文件(文件文件夹)

问题描述

如何以递归方式将文件夹上传到 azure blob 存储?我想上传一个镶木地板文件:

abcd.parquet
├── _SUCCESS
├── myPart=20180101
│   └── part-00179-660f71d6-ed44-41c7-acf0-008724dd923a.c000.gz.parquet
├── myPart=20180102
   └── part-00022-660f71d6-ed44-41c7-acf0-008724dd923a.c000.gz.parquet

以下:

az storage blob upload -f abcd.parquet -c my_container -n abcd

失败:Is a directory

看起来递归上传可以在 Windows 上使用 AZCopy https://stephanefrechette.com/upload-multiple-files-recursively-azure-blob-storage-azure-cli-2-0-macoslinux/#.W3JpGVJCSL4 https:// docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy

它看起来像:Linux https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-linux也有类似的东西,但我也想知道我是否应该改用 spark。

此外,是否可以将上传时的目录层次结构转换为文件名,即abcd.parquet_dt=2018..._part-....gz.parquet需要更少的目录列表?

最后,在上传到天蓝色后,分区仍应按预期工作。

相关: -从 Linux 将 10,000,000 个文件上传到 Azure Blob 存储

标签: azuredirectoryazure-blob-storageparquetazure-cli

解决方案


blobxfer https://github.com/Azure/blobxfer非常适合将文件同步到天蓝色(递归)


推荐阅读