apache-spark - 我的 Spark UI 事件时间线中的空白区域是什么?
问题描述
我有一个在 YARN 集群(在 AWS EMR 中)上运行的 Spark 批处理应用程序。当我从 S3 读取应用程序的输入并将输出也写入 S3 时,应用程序需要很长时间(将近 6 分钟)。我猜这是因为读取和写入 S3 时的延迟问题。为了证明我的猜测是正确的,我去我的火花事件时间线看看什么需要时间。这是时间线:
我的保存功能后有巨大的空白。我看到保存功能在大约 10-15 秒内完成执行。它真的完成运行并且执行器处于空闲状态吗?
为了提高我的应用程序的运行时间,我做了一个实验。我使用 HDFS 而不是 S3。我从 HDFS 读取应用程序的输入并将输出也写入 HDFS。申请只用了 1.5 分钟。本例中的火花事件时间线如下所示: 空白已消失。
- 我之前的活动时间线中的空白区域是什么?
- 为什么有些作业(即事件时间轴中的蓝色框)垂直均匀分布?
- 为什么 foreach() 作业和 save() 作业没有垂直分散?
- 职位垂直分散是什么意思?
解决方案
推荐阅读
- django - 如何将两个查询混合为一个作为下拉元素
- selenium-webdriver - 当我将 WebdriverManager 与 selenium 并行使用时,我在测试用例的中间收到此错误。'断开连接:未连接到 DevTools'
- javascript - 在另一个节点 js 服务器之前添加登录节点服务器
- python - 如何使用 Python 创建屏幕截图 Motion JPEG 流媒体服务器?
- c++ - C++ - 以特定方式对向量中的字符串进行排序
- reactjs - React tiliio 可编程视频切换摄像头不工作
- c# - OpenIdConnectProtocolInvalidNonceException。用户仍然可以在 AuthenticationFailed 通知上进行身份验证吗?
- java - 以随机顺序访问数组中的每个值
- java - 如何使用“@”(注释)在变量名称中签名创建变量?
- php - 我的变量有问题吗?