首页 > 解决方案 > 按分区从 Azure Blob 存储读取文件

问题描述

我设置了 azure blob 存储容器,如下所示

存储帐户--> 容器->YYYY/MM/DD/abc01.json

目录层次结构每天根据 Day 创建。这意味着每天都会创建一个新的“DD”目录,并在其中加载新文件。下个月也是如此。

如何从 scala 笔记本中读取此分区结构,它允许我根据我传递的根目录读取所有 abc*.json 文件。

例如:如果我想加载一个月的所有文件,我应该能够做到这一点。

对此的任何帮助表示赞赏

问候,

麦克斯

标签: scalaazureapache-sparkdatabricks

解决方案


您可以通过以下路径:

wasb://YOURDefaultContainer@YOURStorageAccount.blob.core.windows.net/YYYY/MM/*/abc*.json

您需要指定YYYYMM值,并且由于要加载一个月的所有文件,因此可以使用通配符。


推荐阅读