首页 > 解决方案 > Databricks 正在“更新 Delta 表的状态”

问题描述

我正在从 Datalake 读取并连接多个 delta 表,并将结果存储回另一个 Deltalake 位置。这样做时,Databricks 向我展示: 在此处输入图像描述

根据我相互连接的增量表的数量,这可能需要很长时间。即使是艰难的加入本身也只需要几分钟,状态更新最多需要一个小时。

当我看到时发生了什么Updating the Delta table's state?我可以以某种方式优化它吗?

标签: pythonpysparkdatabricksazure-databricksdelta-lake

解决方案


谢谢 Karthikeyan Rasipalay Durairaj,发布您的建议作为帮助其他社区成员的答案。

更新 Delta 表的状态。

命令状态报告意味着,

  • 在每次查询开始时,Delta 表会自动更新到表的最新版本。
  • Delta Lake以优化的频率将检查点写入Delta 表的聚合状态。
  • Databricks 使用嵌套类型优化了高阶函数和 DataFrame 操作的性能。
  • 有关 Databricks SQL 优化命令参考信息的 Delta Lake,请参阅

推荐阅读