azure - Azure 数据湖 VS Azure HDInsight
问题描述
我正在浏览 Microsoft 文档:
https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview
我是 Azure 数据湖和 HDInsight 的新手。URL中有一条语句告诉
"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."
根据我最初的理解,数据湖存储是可以存储任何类型数据的存储。我认为,HDInsight 也做同样的事情。
我的问题是 Azure Data Lake 和 Azure HDInsight 有什么区别?如果 HDInsight 可用于文件存储或任何类型的存储,那么为什么要使用 Data Lake?如果有人能详细说明这一点,那就太好了。谢谢。
解决方案
想到数据湖的最简单方法是想象这个大型容器,它就像一个真正的湖泊,河流流入河流,你永远不知道河流来自哪里(或河流的“类型”)。引入 Azure Data Lake 是为了让开发人员、数据科学家和分析师能够轻松地存储任何大小的数据。它消除了摄取和存储所有数据的复杂性,同时加快了大数据的启动和运行速度。数据湖能够存储海量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等)并将它们混合在一起,以关联许多不同的数据类型。这里的关键是我们正在从传统方式转向现代工具(如 Hadoop、Cassandra、NoSQL DB 等)。Azure Data Lake 包括三个服务:
- Azure Data Lake Store,一个支持大数据分析的无限制数据湖
- Azure Data Lake Analytics,一种大规模并行的按需作业服务
- Azure HDInsight,一个完全托管的云 Hadoop 和 Spark 产品
Azure Data Lake Store 就像一个基于云的文件服务或文件系统,其大小几乎不受限制。我们可以在该存储中的数据之上运行服务。因此,您可以在 HDInsight 群集中使用 Hadoop 或 Spark ,也可以使用 Azure Data Lake 分析服务,它是对 Azure Data Lake Store 的补充。该服务将允许您运行有效查询存储在 Azure Data Lake 存储中的数据并生成输出结果的作业。
推荐阅读
- python - 如何创建最后一列(即第五列)将添加前四列的 DataFrame
- html - 我是否必须再次为多个 html 页面导入(重复)src 库才能获得它们的功能?
- python - 没有函数匹配给定的名称和参数类型。在带有 python 的 postgres 中
- java - AssertJ 可以验证一个值是否属于特定数据类型?
- python - 在 pytest 中引入多个不同文件路径的 Pythonic 方法
- tensorflow2.0 - TensorFlow Extended:在 Schema 中指定特征的效价
- azure-devops-migration-tools - Azure DevOps 迁移器工具 - System.NullReferenceException:对象引用未设置为对象的实例
- java - 设置自动装配后运行 dataSource bean
- php - 此路由不支持 GET 方法。支持方式:提交表单后POST
- json - 遍历嵌套的 JSON 列表并将一个值添加到列表中