首页 > 解决方案 > 为什么logs和spark web ui的task状态不一致?

问题描述

我在我的 spark 流应用程序的 DStreams 的 foreachRDD 函数中对具有 4 个分区的 rdd 执行了以下操作:

print rdd.count()
print rdd.collect()

第一条语句rdd.count()正常执行,而第二条语句总是被 RUNNING 状态阻塞,如下图所示: 在此处输入图像描述

但是,当我查看日志时,它显示任务已完成。

18/11/09 16:45:30 INFO executor.Executor: Finished task 3.0 in stage 26.0 (TID 555). 197621638 bytes result sent via BlockManager)

有什么问题?

spark版本是pyspark==2.2.1,集群是spark on yarn。

标签: apache-sparkspark-streaming

解决方案


推荐阅读