首页 > 解决方案 > 数据湖如何存储数据以及采用什么格式?

问题描述

我听说 Data Lakes 可以存储任何类型的数据:关系、NoSql、图片/图像、Adobe Pdf、Excel。数据是如何存储的,以 No-SQL 格式还是二叉树?或者它只是像普通硬盘一样保存它?如果是这样,他们为什么不把它叫做存储而不是数据湖呢?我正在尝试找到“数据湖”的确切存储机制

标签: sqlimagenosqlazure-data-lakedata-lake

解决方案


数据湖是以自然格式存储的数据系统或存储库,[1] 通常是对象 blob 或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)。

示例:用于托管数据湖的技术示例之一是 Apache Hadoop 中使用的分布式文件系统。

许多公司还使用云存储服务,例如 Azure Data Lake 和 Amazon S3。 [9] 学术界对数据湖的概念逐渐产生了兴趣,例如卡迪夫大学的 Personal DataLake[10] 旨在创建一种新型数据湖,旨在通过提供单点收集、组织来管理个人用户的大数据,并共享个人数据。 [11]

早期的数据湖 (Hadoop 1.0) 的面向批处理 (MapReduce) 的功能有限,并且是唯一与之相关的处理范例。与数据湖交互意味着您必须具备 Java 方面的专业知识,使用 map reduce 和更高级别的工具,如 Apache Pig 和 Apache Hive(它们本身是面向批处理的)。随着 Hadoop 2.0 的出现以及由 YARN(Yet Another Resource Negotiator)接管的资源管理职责分离,流式处理、交互式处理、在线处理等新的处理范式已通过 Hadoop 和 Data Lake 变得可用。


推荐阅读