apache-spark - Spark应用程序与作业与阶段与任务之间的区别?
问题描述
据我了解:
1. Spark application is a whole piece of code (jar)
2. Spark job is subset of code - for each action one job will be created
3. Spark stage is subset of job - whenever data shuffle happens (wide transformation) - one stage will be created
4. Spark task is the actual task which runs our code - for each partition - one task will be created
现在,我有一个带数字的 rdd。我想从给定的 rdd 中过滤偶数和奇数,并分别保存为偶数和奇数文本文件。
根据上面的描述,应该有 2 个职位被创造出来。但只创造了一份工作。
谁能澄清一下如何创建火花作业/阶段/任务的逻辑。
解决方案
推荐阅读
- javascript - 如何异步对数据数组运行 mocha 测试?
- css - 如何从加载的网页中找到 CSS 模式并将其删除
- python - SQLAlchemy ORM:无效的集合
- reactjs - 更新firestore中数组字段内的对象
- python - 需要帮助从网站上抓取特定的 div 元素并将它们导出为 CSV
- ios - SwiftUI 项目不提供代码高亮或代码完成(自动完成)
- javascript - 检查字符串的最后一个字符是否是Javascript中的元音
- mysql - Web App 的订阅数据库:如何确定到期日期?
- java - 多线程应用程序中用于局部变量的 Java 垃圾收集
- tensorflow - 使用 tensorflow 梯度带计算 Hessian