apache-spark - 从样条谱系中查找火花管道开始时间
问题描述
我正在探索样条曲线以确定火花执行管道所需的时间(从初始化火花上下文到写入结果)。我能看见
"timestamp":1611397050192
在实际上是写入时间的样条谱系文件中。是否有任何选项可以从 Spline Lineage Log 获取管道的开始时间?
解决方案
Spline 不直接捕获开始时间,但从 Spline 0.6 开始,执行时间在ExecutionEvent.durationNs
属性中捕获(值以纳秒为单位)。所以你可以很容易地计算开始时间timestamp - durationNs * 1000000
{
planId: "1214f38d-c2c9-4155-963b-f92d91dac4fa",
timestamp: 1614094012617,
durationNs: 69208608168,
)
然而,有一个抬头。当前版本的 Spline 捕获写入操作,跳过中间或仅内存的操作,例如show()
等collect()
。这意味着,例如,如果您调用数据帧的某处,则后续写入cache()
的执行时间将根据读取缓存数据计算, 作为 DAG 前面的部分,不会被写入触发。cache()
推荐阅读
- kubeflow - Kubeflow sdk - client.list_experiments() 中的错误
- django - 超级用户与普通用户的不同模型字段要求?django
- apache - 如何为运行 WHM 的服务器设置默认的 Apache 登录页面?
- hibernate - 在 Hibernate 中创建一个列表
- java - STOMP/SpringBoot 的 WebSocket 构建配置
- postgresql - 如何在 Debian docker 映像上安装 postgresql-client
- r - 如何用 R 中的时间列表填充 NA?
- javascript - 如何在进度条完成之前禁用 onlick 事件?
- angular - 空返回的 switchMap 不起作用 - 错误“无法读取 null 的属性 'uid'”
- tsql - 按日期分组行