apache-spark - databricks 集群中的通用元数据
问题描述
我在 Azure 云平台的 databricks 实例中有 3-4 个集群。我想为所有集群维护一个公共元存储。让我知道是否有人实现了这一点。
解决方案
我建议配置一个外部 Hive 元存储。默认情况下,Detabricks 在幕后旋转自己的元存储。但是您可以创建自己的数据库(Azure SQL 也可以,MySQL 或 Postgres 也可以)并在集群启动期间指定它。
以下是详细步骤: https ://docs.microsoft.com/en-us/azure/databricks/data/metastores/external-hive-metastore
需要注意的事项:
- Databricks 中的数据选项卡 - 您可以选择集群并查看不同的元存储。
- 为避免使用 SQL 用户和密码,请查看托管身份https://docs.microsoft.com/en-us/azure/stream-analytics/sql-database-output-managed-identity
- 使用集群的初始化脚本自动化外部 Hive 元存储连接
- 对您的来源进行权限管理。对于 ADLS Gen 2,考虑使用密码直通
推荐阅读
- c++ - 多服务器队列模拟 C++
- json - 将 Dart Map 转换为 AWS json
- javascript - 获取 React 运行时错误:元素类型无效:需要字符串(对于内置组件)或类/函数(对于复合组件)
- aws-sdk - AWS 使用多个 RetryConditions 创建 RetryPolicy
- python - “AttributeError:'NoneType'对象没有属性'readline'”的Python原因
- node.js - How to reduce nested objects value in each model with Mongoose?
- reactjs - 如何访问 redux 存储值?价值出现在道具中
- python - HuggingFace 仇恨检测模型
- c# - 如何在实体框架模型中使用通用导航属性?
- ios - 拖放 UIView 控制器