azure - Azure 数据湖 VS Azure HDInsight

问题描述

我正在浏览 Microsoft 文档：

https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview

我是 Azure 数据湖和 HDInsight 的新手。URL中有一条语句告诉

"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."

根据我最初的理解，数据湖存储是可以存储任何类型数据的存储。我认为，HDInsight 也做同样的事情。

我的问题是 Azure Data Lake 和 Azure HDInsight 有什么区别？如果 HDInsight 可用于文件存储或任何类型的存储，那么为什么要使用 Data Lake？如果有人能详细说明这一点，那就太好了。谢谢。

标签： azureazure-data-lakeazure-hdinsight

想到数据湖的最简单方法是想象这个大型容器，它就像一个真正的湖泊，河流流入河流，你永远不知道河流来自哪里（或河流的“类型”）。引入 Azure Data Lake 是为了让开发人员、数据科学家和分析师能够轻松地存储任何大小的数据。它消除了摄取和存储所有数据的复杂性，同时加快了大数据的启动和运行速度。数据湖能够存储海量不同类型的数据（结构化数据、非结构化数据、日志文件、实时数据、图像等）并将它们混合在一起，以关联许多不同的数据类型。这里的关键是我们正在从传统方式转向现代工具（如 Hadoop、Cassandra、NoSQL DB 等）。Azure Data Lake 包括三个服务：

Azure Data Lake Store，一个支持大数据分析的无限制数据湖
Azure Data Lake Analytics，一种大规模并行的按需作业服务
Azure HDInsight，一个完全托管的云 Hadoop 和 Spark 产品

Azure Data Lake Store 就像一个基于云的文件服务或文件系统，其大小几乎不受限制。我们可以在该存储中的数据之上运行服务。因此，您可以在 HDInsight 群集中使用 Hadoop 或 Spark ，也可以使用 Azure Data Lake 分析服务，它是对 Azure Data Lake Store 的补充。该服务将允许您运行有效查询存储在 Azure Data Lake 存储中的数据并生成输出结果的作业。

azure - Azure 数据湖 VS Azure HDInsight

问题描述

解决方案

推荐阅读