hadoop - GCP Hadoop 数据仓库?
问题描述
我知道 Google BigQuery 是一个数据仓库,但 Dataproc、Big Table、Pub/Sub 是否被视为数据仓库?这会使 Hadoop 成为数据仓库吗?
解决方案
“数据仓库”主要是一个信息系统概念,它描述了一个集中且可信的(例如公司/业务)数据源。
来自维基百科:“DW 是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。”
关于您的问题,一个简单的答案是:
- Google BigQuery 是一个查询执行(和/或数据处理)引擎,您可以在不同类型的数据存储中使用它。
- Google BigTable 是一种数据库服务,可用于实现数据仓库或任何其他数据存储。
- Google DataProc 是一种数据处理服务,由常见的 Hadoop 处理组件组成,例如 MapReduce(或 Spark,如果您认为它是 Hadoop 的一部分)。
- Hadoop 是一个用于数据存储和处理的框架/平台,由不同的组件组成(例如,通过 HDFS 进行数据存储,通过 MapReduce 进行数据处理)。您可以使用 Hadoop 平台来构建数据仓库,例如通过使用 MapReduce 处理数据并将其加载到将存储在 HDFS 中并且可以由 Hive 查询的 ORC 文件中。但是,如果它是“关于数据真相的集中式单一版本”,则称其为数据仓库才是合适的;)
推荐阅读
- c# - C# - 添加表时 SQLite 抛出“数据库未打开”错误
- string - MIPS 函数返回类型
- reactjs - 猫鼬 findOne 方法返回 null
- java - 如果两个字符串有空格,如何比较它们?
- php - 将 csv 导入到两个表 MYSQL - Codeigniter
- c# - 尝试获取 DicomDataset 时获取“DicomTag 不支持值”
- erlang - 在创建节点后,我可以将 erlang 节点设置为“隐藏”,或者将“connect_all”设置为 false 吗?
- java - 使用 instanceof + 转换对象检查对象与覆盖方法?
- node.js - node.js模块导出如何使用所有模块中的数据?
- algorithm - 为什么创建调用二叉树的递归方法的空间复杂度为 O(h)?