apache-spark - 如何为 Spark SQL 设置元数据数据库?
问题描述
Hive 可以有它的元数据并在那里存储表、列、分区信息。如果我不想使用蜂巢。我们可以为火花创建与蜂巢相同的元数据吗?我想查询 Spark SQL(不使用数据框),如 Hive(选择、来自和在哪里)我们可以这样做吗?如果是,我们可以使用哪个关系数据库来存储元数据?
解决方案
我们可以为 spark 创建一个与 hive 相同的元数据吗?
Spark 会为您执行此操作,您不必使用单独的 Hive 安装,甚至不必使用它的一部分(例如 Hive 元存储)。
无论您使用哪种 Apache Spark 安装,Spark SQL 在内部都使用 Hive 元存储,其目的与 Hive 相同(但元存储现在是 Spark SQL 的一部分)。
如果是,我们可以使用哪个关系数据库来存储元数据?
Hive 支持的任何东西,例如 Oracle、MySQL、PostgreSQL。配置与单独的 Hive 安装非常相似(在此类企业安装中通常是这种情况)。
您可能想阅读Hive Metastore。
推荐阅读
- python - 需要复杂条件下的密码验证器的帮助
- html - 无法让我的 CSS 文件覆盖 .jsp 图像尺寸
- reactjs - 如何在 Web App 中隐藏 Kindle 导航栏
- postsharp - 解决方案范围的 PostSharp 配置不起作用
- opencv - 如何计算 3d 空间中的新相机位置和旋转,以在 3d 对象移动后获得完全相同的视图?
- jpa - JPA查询所选字段上的where语句结果
- java - 如何仅在某些控制器中定义的路径上启用 Java Spring 安全性?
- android - 方向更改后使用存储库模式获取数据
- c# - GroupBy 并在新集合(父)中选择新集合(子)
- graph - 了解空间复杂度 - BFS 解决方案 - 绘制布尔矩阵