首页 > 解决方案 > 在 Apache Spark 中,同一 Stage 中的任务是否同时工作?

问题描述

同一阶段的任务是否同时工作?如果是这样,一个阶段中分区之间的线指的是什么?DAG 示例

标签: apache-sparkstage

解决方案


这是一个很好的阅读链接。详细解释了 DAG 以及其他一些可能感兴趣的事情。DAG 上的 databricks 博客

我可以试着解释一下。在创建每个阶段时,它都有一组被划分的任务。当遇到动作时。驱动程序将任务发送给执行程序。根据您的数据的分区方式,对分布式集群中的数据调用 N 个任务。所以你看到的箭头是执行计划。因为它不能在读取文件之前执行映射功能。每个拥有一些数据的节点将按照 DAG 提供的顺序执行这些任务。


推荐阅读