performance - Spark UI:如何理解 DAG 中的 min/med/max
问题描述
我想完全理解有关 min/med/max 信息的含义。
例如:
scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)
所有核心的意思,最小扫描时间是3.1s,最大是15.1,总时间累积到34分钟,对吧?
那么对于
data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)
意味着所有核心,最大使用量是 43.6MB,最小使用量是 41.5MB,对吧?
所以同样的逻辑,对于左边的排序步骤,每个核心都使用了 80MB 的内存。
现在,执行器有 4 个核心和 6G RAM,根据 metrix,我认为已经预留了很多 RAM,因为每个核心最多可以使用 1G 左右的 RAM。所以我想尝试减少分区数并强制每个执行器处理更多数据并减少洗牌大小,您认为理论上可行吗?
解决方案
推荐阅读
- java - 位于主线程的对象没有被另一个线程初始化
- c++ - QT Login Timeout expired QODBC3:Unable to connect ERROR
- spring-batch - Spring Cloud Task 和 Spring Batch 的区别?
- javascript - 回文挑战
- python - 任何人都有“[Errno 2] 没有这样的文件或目录”修复?
- android - 以编程方式生成可绘制对象时的 Android OOM
- reactjs - ReactJS:在特定的时间间隔内定期更新状态
- java - 在添加依赖文件后的springboot中我有/newart.jsp抛出我做错的地方
- node.js - 部署在 Heroku 上的 Node.js 应用程序无限加载?
- python - 我在 django 中遇到了这些错误,所有命令都可以工作,但是如果我想启动服务器,则会发生这些错误