apache-spark - 为什么logs和spark web ui的task状态不一致?
问题描述
我在我的 spark 流应用程序的 DStreams 的 foreachRDD 函数中对具有 4 个分区的 rdd 执行了以下操作:
print rdd.count()
print rdd.collect()
第一条语句rdd.count()
正常执行,而第二条语句总是被 RUNNING 状态阻塞,如下图所示:
但是,当我查看日志时,它显示任务已完成。
18/11/09 16:45:30 INFO executor.Executor: Finished task 3.0 in stage 26.0 (TID 555). 197621638 bytes result sent via BlockManager)
有什么问题?
spark版本是pyspark==2.2.1,集群是spark on yarn。
解决方案
推荐阅读
- python - 在多索引熊猫DataFrame中选择每个索引的第一行
- html - 为什么我的深色主题按钮只会将边框变黑?
- python - 在 pandas 数据框中操作列表的有效方法
- postgresql - 从日期范围列类型中选择一个部分
- discord - Discord bot 在线时无法工作,bot 正在运行
- python - Python - 在 Pandas DataFrame 中按唯一 ID 累计计数
- python - 如何使用python为日期字段中的每个日期添加0到23小时作为后缀
- apache-kafka - 从 Connect Worker 获取集群元数据
- laravel - Laravel 网络套接字 ssl 分配
- ruby-on-rails - 如何使用空中宝石将参数传递给规格?