apache-spark - Databricks Delta 表加载需要很长时间才能加载 1 个记录
问题描述
每当 databricks 笔记本运行时,我都会尝试将 1 条记录插入到增量表中,但这大约需要 70 秒。我将 start_time 作为变量传递。
val batchDf= Seq((1000, 40, start_time, null, null, status)).toDF("Key", "RunId", "Start_Time", "End_Time", "Duration", "In-progress")
batchDf.write.format("delta").mode("append").saveAsTable("t_audit")
知道为什么将 1 条记录加载到增量表中需要这么长时间吗?我希望这将在不到 5 秒的时间内完成。
解决方案
与我在过去 30 年中使用的任何东西相比,Databricks 的速度非常慢,但在您的情况下,它可能与自动优化有关
推荐阅读
- python - Databricks 中 UDF 的错误输出
- node.js - 将 nextjs 应用程序作为子应用程序托管到 IIS
- go - 如何在没有内存损坏的情况下从 Go 指针转换到 uintptr 并返回?
- python - 从单独模块中的类访问方法时的Python循环导入
- javascript - TypeScript 建议为用户类中的角色实体提供更好的实现逻辑
- powershell - Powershell 创建和导出根证书 PFX
- scala - 如何将值传递给 JsonPath 以进行 Gatling
- laravel - laravel mutator:访问其他属性
- django - 无法使 Codemirror 配置工作
- java - 编译时与运行时方法绑定