首页 > 解决方案 > Kubernetes + Spark 作业未进行/卡住

问题描述

我正在尝试在 Kubernetes 集群上运行 pyspark 代码。

应用流程应该是:读取数据 -> 缓存 -> 执行多个操作,但作业根本没有进展。它卡在日志消息上:

WatchConnectionManager: The resource version -some number- no longer exists. Scheduling a reconnect.

可能是什么问题呢?

标签: apache-sparkkubernetespyspark

解决方案


看起来像 Spark 中的一个问题,应该在版本 3.0.2、3.1.0 中修复

https://issues.apache.org/jira/browse/SPARK-24266


推荐阅读