首页 > 解决方案 > GCP Hadoop 数据仓库?

问题描述

我知道 Google BigQuery 是一个数据仓库,但 Dataproc、Big Table、Pub/Sub 是否被视为数据仓库?这会使 Hadoop 成为数据仓库吗?

标签: hadoopgoogle-cloud-datastoregoogle-cloud-dataproc

解决方案


“数据仓库”主要是一个信息系统概念,它描述了一个集中且可信的(例如公司/业务)数据源。

来自维基百科:“DW 是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。”

关于您的问题,一个简单的答案是:

  • Google BigQuery 是一个查询执行(和/或数据处理)引擎,您可以在不同类型的数据存储中使用它。
  • Google BigTable 是一种数据库服务,可用于实现数据仓库或任何其他数据存储。
  • Google DataProc 是一种数据处理服务,由常见的 Hadoop 处理组件组成,例如 MapReduce(或 Spark,如果您认为它是 Hadoop 的一部分)。
  • Hadoop 是一个用于数据存储和处理的框架/平台,由不同的组件组成(例如,通过 HDFS 进行数据存储,通过 MapReduce 进行数据处理)。您可以使用 Hadoop 平台来构建数据仓库,例如通过使用 MapReduce 处理数据并将其加载到将存储在 HDFS 中并且可以由 Hive 查询的 ORC 文件中。但是,如果它是“关于数据真相的集中式单一版本”,则称其为数据仓库才是合适的;)

推荐阅读