首页 > 解决方案 > Spark应用程序与作业与阶段与任务之间的区别?

问题描述

据我了解:

1. Spark application is a whole piece of code (jar) 
2. Spark job is subset of code - for each action one job will be created
3. Spark stage is subset of job - whenever data shuffle happens (wide transformation) - one stage will be created 
4. Spark task is the actual task which runs our code - for each partition - one task will be created

现在,我有一个带数字的 rdd。我想从给定的 rdd 中过滤偶数和奇数,并分别保存为偶数和奇数文本文件。

根据上面的描述,应该有 2 个职位被创造出来。但只创造了一份工作。

谁能澄清一下如何创建火花作业/阶段/任务的逻辑。

标签: apache-sparkpysparkapache-spark-sqlhadoop2

解决方案


推荐阅读