首页 > 解决方案 > 如何为 Spark SQL 设置元数据数据库?

问题描述

Hive 可以有它的元数据并在那里存储表、列、分区信息。如果我不想使用蜂巢。我们可以为火花创建与蜂巢相同的元数据吗?我想查询 Spark SQL(不使用数据框),如 Hive(选择、来自和在哪里)我们可以这样做吗?如果是,我们可以使用哪个关系数据库来存储元数据?

标签: apache-sparkapache-spark-sql

解决方案


我们可以为 spark 创建一个与 hive 相同的元数据吗?

Spark 会为您执行此操作,您不必使用单独的 Hive 安装,甚至不必使用它的一部分(例如 Hive 元存储)。

无论您使用哪种 Apache Spark 安装,Spark SQL 在内部都使用 Hive 元存储,其目的与 Hive 相同(但元存储现在是 Spark SQL 的一部分)。

如果是,我们可以使用哪个关系数据库来存储元数据?

Hive 支持的任何东西,例如 Oracle、MySQL、PostgreSQL。配置与单独的 Hive 安装非常相似(在此类企业安装中通常是这种情况)。

您可能想阅读Hive Metastore


推荐阅读