首页 > 解决方案 > 将 Hive 存储与 Spark 集群(计算层)分离

问题描述

我们有一个场景在云环境中使用Hive的存储能力(下面是HDFS)和Spark集群的计算能力。有没有办法可以清楚地分开这两层。

设想:

  1. Hive 会定期获取数据(持久层)。这不能随意删除/删除。
  2. 随时使用 Spark 集群处理 Hive 层中的数据。但是我们不想在计算完成后让集群基础设施处于空闲状态。

因此,我们正在考虑在需要处理之前在云中创建集群,并在处理结束后立即删除 spark 集群。优势将在于节省保留集群资源的成本。

如果我们将数据加载到一个节点集群中的 Hive 上,那么我们可以读取这些数据以在 spark 集群中进行处理,而无需进行数据移动。

假设 - Hadoop 的数据节点没有使用高端配置,它们不适合在内存处理中进行 spark(CPU 低;RAM 低)。

请建议这种情况在云基础设施(GCP)中是否可能。有没有更好的方法来解决这个问题。

标签: apache-sparkhivegoogle-cloud-platform

解决方案


推荐阅读