首页 > 解决方案 > Spark UI:如何理解 DAG 中的 min/med/max

问题描述

我想完全理解有关 min/med/max 信息的含义。

例如:

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)

所有核心的意思,最小扫描时间是3.1s,最大是15.1,总时间累积到34分钟,对吧?

那么对于

data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)

意味着所有核心,最大使用量是 43.6MB,最小使用量是 41.5MB,对吧?

所以同样的逻辑,对于左边的排序步骤,每个核心都使用了 80MB 的内存。

现在,执行器有 4 个核心和 6G RAM,根据 metrix,我认为已经预留了很多 RAM,因为每个核心最多可以使用 1G 左右的 RAM。所以我想尝试减少分区数并强制每个执行器处理更多数据并减少洗牌大小,您认为理论上可行吗?

在此处输入图像描述

标签: performanceapache-sparkapache-spark-sqlbigdataspark-ui

解决方案


推荐阅读