azure - 使用 ADLS Gen2 摄取到数据湖时,文件应该存储在文件共享还是容器中
问题描述
在提取数据并转换基于 Azure ADLS gen2 存储帐户(分层)构建的数据湖的各个层时,我可以在容器或文件共享中组织文件。我们目前以原始格式“.csv”将原始文件提取到 RAW 容器中。然后,我们将这些文件合并到压缩 parquet 格式的 QUERY 容器中,以便我们可以使用 SQL Server 中的 Polybase 虚拟化所有数据。
据我了解,只能使用典型的 SMB/UNC 路径访问存储在文件共享中的文件。 在构建这样的数据湖时,是否应该避免使用 ADLS 中的容器,以便获得能够通过文件共享访问这些相同文件的额外好处?
我确实注意到位于文件共享下的文件似乎不支持元数据键/值(除非它只是没有通过 UI 公开)。除此之外,我想知道这两种类型之间是否还有其他真正的区别。
解决方案
感谢@Gaurav在评论部分分享知识。
(使用评论部分中提供的详细信息发布答案以帮助其他社区成员。)
之前,只能使用典型的 SMB/UNC 路径访问存储在 Azure 存储文件共享中的文件。但最近,现在可以使用 NFS 3.0 协议挂载 Blob 容器。此Microsoft 官方文档提供了分步指导。
限制:只能从基于 Linux 的 Azure 虚拟机 (VM) 或在本地运行的 Linux 系统将容器装载到 Blob 存储中。不支持 Windows 和 Mac OS。
推荐阅读
- scala - 如何将简单的 scala 类序列化为 CSV 文件?
- javascript - 按钮的 onclick 记录 i 标签而不是按钮本身
- autodesk-forge - 如何检查上下文菜单是否在 Autodesk Forge 上打开
- search - Magento 2 从搜索页面获取所有产品
- reactjs - 为什么我在 React.memo() 中的浅层比较不起作用?
- progress-bar - 我正在尝试让 JavaScript 进度条在页面重新加载或会话结束后保留它的进度
- python - 如何在熊猫数据框中搜索元素列表
- flutter - 如何在颤动中访问地图元素并将它们显示为按钮?
- git - 执行“git fetch origin”时出现以下错误
- function - 查询公式错误(从一张表中获取数据,其中一些有缩进)