sql - 数据湖如何存储数据以及采用什么格式?
问题描述
我听说 Data Lakes 可以存储任何类型的数据:关系、NoSql、图片/图像、Adobe Pdf、Excel。数据是如何存储的,以 No-SQL 格式还是二叉树?或者它只是像普通硬盘一样保存它?如果是这样,他们为什么不把它叫做存储而不是数据湖呢?我正在尝试找到“数据湖”的确切存储机制
解决方案
数据湖是以自然格式存储的数据系统或存储库,[1] 通常是对象 blob 或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)。
示例:用于托管数据湖的技术示例之一是 Apache Hadoop 中使用的分布式文件系统。
许多公司还使用云存储服务,例如 Azure Data Lake 和 Amazon S3。 [9] 学术界对数据湖的概念逐渐产生了兴趣,例如卡迪夫大学的 Personal DataLake[10] 旨在创建一种新型数据湖,旨在通过提供单点收集、组织来管理个人用户的大数据,并共享个人数据。 [11]
早期的数据湖 (Hadoop 1.0) 的面向批处理 (MapReduce) 的功能有限,并且是唯一与之相关的处理范例。与数据湖交互意味着您必须具备 Java 方面的专业知识,使用 map reduce 和更高级别的工具,如 Apache Pig 和 Apache Hive(它们本身是面向批处理的)。随着 Hadoop 2.0 的出现以及由 YARN(Yet Another Resource Negotiator)接管的资源管理职责分离,流式处理、交互式处理、在线处理等新的处理范式已通过 Hadoop 和 Data Lake 变得可用。
推荐阅读
- pandas - 如何将有序 dict 转换为 Pandas 数据框,每列的每个键值(“标签”)
- javascript - ' 在 Javascript 函数上使用
- javascript - 带有条件的 GAS 地图数组
- r - 如何用 NA 标记丢失的左手搭配
- python - 如何处理具有扩展用户(onetoone字段)关系django rest框架的模型的PUT请求
- c# - 如何使用 Windows 照片查看器查看二进制照片
- python-3.x - 如何使用不同形状的 DataFrame 解决“IndexError:单个位置索引器超出范围”
- python - TypeError:sort_index() 在 pandas Python 中出现意外的关键字参数“by”错误
- wordpress - 在 post_results() 过滤器之后,Wordpress 分页不考虑过滤后的帖子
- excel - 使用 mid 函数获取用户窗体的查找值?