python - Databricks 正在“更新 Delta 表的状态”
问题描述
我正在从 Datalake 读取并连接多个 delta 表,并将结果存储回另一个 Deltalake 位置。这样做时,Databricks 向我展示:
根据我相互连接的增量表的数量,这可能需要很长时间。即使是艰难的加入本身也只需要几分钟,状态更新最多需要一个小时。
当我看到时发生了什么Updating the Delta table's state
?我可以以某种方式优化它吗?
解决方案
谢谢 Karthikeyan Rasipalay Durairaj,发布您的建议作为帮助其他社区成员的答案。
更新 Delta 表的状态。
命令状态报告意味着,
- 在每次查询开始时,Delta 表会自动更新到表的最新版本。
- Delta Lake以优化的频率将检查点写入Delta 表的聚合状态。
- Databricks 使用嵌套类型优化了高阶函数和 DataFrame 操作的性能。
- 有关 Databricks SQL 优化命令参考信息的 Delta Lake,请参阅
- Databricks Runtime 7.x 及更高版本: 优化(Databricks 上的 Delta Lake)
- Databricks Runtime 5.5 LTS 和 6.x: 优化(Databricks 上的 Delta Lake)
推荐阅读
- python - 无法在 GCP 中以编程方式限制计费:“无法禁用计费,可能需要检查权限”
- office365 - 在合规中心的哪里可以找到组角色分类列表查看器和数据分类内容查看器?
- javascript - 检查小数位的值
- sharepoint-online - 使用 REST API 查询 Sharepoint Online 并在正文中传递查询 (POST)
- amazon-web-services - .Net Core Web API 函数不返回数据,部署在 EC2 中
- python - 如何将列表中的字符串值更改为 Python 中的浮点数
- python - 提交 2captcha 令牌后页面重新加载
- asp.net - 当我将 ASP.NET Core 发布到 Vps 服务器时,它会在网页中列出项目文件
- linux - xsetwacom 找不到输出
- r - 如何在矩阵中重复相同的函数,改变函数的参数