首页 > 解决方案 > Azure 数据湖 VS Azure HDInsight

问题描述

我正在浏览 Microsoft 文档:

https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview

我是 Azure 数据湖和 HDInsight 的新手。URL中有一条语句告诉

"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."

根据我最初的理解,数据湖存储是可以存储任何类型数据的存储。我认为,HDInsight 也做同样的事情。

我的问题是 Azure Data Lake 和 Azure HDInsight 有什么区别?如果 HDInsight 可用于文件存储或任何类型的存储,那么为什么要使用 Data Lake?如果有人能详细说明这一点,那就太好了。谢谢。

标签: azureazure-data-lakeazure-hdinsight

解决方案


想到数据湖的最简单方法是想象这个大型容器,它就像一个真正的湖泊,河流流入河流,你永远不知道河流来自哪里(或河流的“类型”)。引入 Azure Data Lake 是为了让开发人员、数据科学家和分析师能够轻松地存储任何大小的数据。它消除了摄取和存储所有数据的复杂性,同时加快了大数据的启动和运行速度。数据湖能够存储海量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等)并将它们混合在一起,以关联许多不同的数据类型。这里的关键是我们正在从传统方式转向现代工具(如 Hadoop、Cassandra、NoSQL DB 等)。Azure Data Lake 包括三个服务:

  • Azure Data Lake Store,一个支持大数据分析的无限制数据湖
  • Azure Data Lake Analytics,一种大规模并行的按需作业服务
  • Azure HDInsight,一个完全托管的云 Hadoop 和 Spark 产品

在此处输入图像描述

Azure Data Lake Store 就像一个基于云的文件服务或文件系统,其大小几乎不受限制。我们可以在该存储中的数据之上运行服务。因此,您可以在 HDInsight 群集中使用 Hadoop 或 Spark ,也可以使用 Azure Data Lake 分析服务,它是对 Azure Data Lake Store 的补充。该服务将允许您运行有效查询存储在 Azure Data Lake 存储中的数据并生成输出结果的作业。


推荐阅读