apache-spark - 火花驱动器如何决定使用哪些火花执行器?
问题描述
火花驱动程序如何决定哪些执行程序将用于特定工作?
是数据本地化驱动吗?
是否根据该数据节点上数据的可用性来选择执行者?
如果是,如果所有数据都存在于单个数据节点上并且数据节点有足够的资源来运行 2 个执行程序,但在 spark-submit 命令中我们使用了 --num-executors 4会发生什么。哪个应该运行 4 个执行程序?
火花驱动程序是否会将该数据节点中的一些数据复制到其他数据节点并产生另外 2 个执行程序(在 4 个必需的执行程序中)?
解决方案
推荐阅读
- html - 没有媒体源的 HTML5 Seekbar/媒体控件
- django - 在 Django admin 中访问命令行参数
- if-statement - Google 表格中的 IF 函数
- django - Django Testing IntegrityError:重复的键值违反了唯一约束细节:键(project_id)=(1023044)已经存在
- prolog - 查找列表的连续子列表
- rust - rust std::path::Path is_file() 总是返回 false
- google-visualization - 为一个数据系列解析 Google 可视化多线图数据字符串
- r - 提取每列中的前 x 个观测值,同时保持 R 中的行索引
- typescript - 如何将 JSDoc 与通用打字稿一起使用?
- python - 如何从子类访问父类中的show方法?