apache-spark - 将 Hive 存储与 Spark 集群（计算层）分离

我们有一个场景在云环境中使用Hive的存储能力（下面是HDFS）和Spark集群的计算能力。有没有办法可以清楚地分开这两层。

设想：

因此，我们正在考虑在需要处理之前在云中创建集群，并在处理结束后立即删除 spark 集群。优势将在于节省保留集群资源的成本。

如果我们将数据加载到一个节点集群中的 Hive 上，那么我们可以读取这些数据以在 spark 集群中进行处理，而无需进行数据移动。

假设 - Hadoop 的数据节点没有使用高端配置，它们不适合在内存处理中进行 spark（CPU 低；RAM 低）。

请建议这种情况在云基础设施（GCP）中是否可能。有没有更好的方法来解决这个问题。

标签： apache-sparkhivegoogle-cloud-platform