首页 > 解决方案 > 使用 ADLS Gen2 摄取到数据湖时,文件应该存储在文件共享还是容器中

问题描述

在提取数据并转换基于 Azure ADLS gen2 存储帐户(分层)构建的数据湖的各个层时,我可以在容器或文件共享中组织文件。我们目前以原始格式“.csv”将原始文件提取到 RAW 容器中。然后,我们将这些文件合并到压缩 parquet 格式的 QUERY 容器中,以便我们可以使用 SQL Server 中的 Polybase 虚拟化所有数据。

据我了解,只能使用典型的 SMB/UNC 路径访问存储在文件共享中的文件。 在构建这样的数据湖时,是否应该避免使用 ADLS 中的容器,以便获得能够通过文件共享访问这些相同文件的额外好处?

我确实注意到位于文件共享下的文件似乎不支持元数据键/值(除非它只是没有通过 UI 公开)。除此之外,我想知道这两种类型之间是否还有其他真正的区别。

标签: azurearchitectureazure-data-lake-gen2storage-file-share

解决方案


感谢@Gaurav在评论部分分享知识。

(使用评论部分中提供的详细信息发布答案以帮助其他社区成员。)

之前,只能使用典型的 SMB/UNC 路径访问存储在 Azure 存储文件共享中的文件。但最近,现在可以使用 NFS 3.0 协议挂载 Blob 容器。此Microsoft 官方文档提供了分步指导。

限制:只能从基于 Linux 的 Azure 虚拟机 (VM) 或在本地运行的 Linux 系统将容器装载到 Blob 存储中。不支持 Windows 和 Mac OS。


推荐阅读