apache-spark - Spark on Kubernetes:当作业失败时是否可以保留崩溃的 Pod?
问题描述
我有一个奇怪的问题,即在 Kubernetes 上运行的 Spark 作业失败,在进行大量洗牌的作业中出现很多“缺少 shuffle X 的输出位置”。增加执行程序内存无济于事。在本地 [*] 模式下仅在 Kubernetes 集群的单个节点上运行的相同作业运行良好,但是我怀疑它与 Kubernetes 或底层 Docker 有关。当 executor 死亡时,pod 会立即被删除,所以我无法追踪它失败的原因。是否有一个选项可以保留失败的 pod,以便我可以查看它们的日志?
解决方案
您可以像这样查看上一个终止的 pod 的日志:
kubectl logs -p <terminated pod name>
还使用此处spec.ttlSecondsAfterFinished
提到的作业字段
推荐阅读
- list - 我做了一个与最小优先级队列相关的程序,有时我需要一个 stl 列表作为基本结构,有时我需要一个 stl 向量结构
- c# - System.InvalidCastException:'无法将'System.Windows.Documents.FlowDocument'类型的对象转换为'System.Windows.Media.Visual'类型。'
- java - 为什么我的输出是一个奇怪的字符串而不是列表
- sql-server - Microsoft SQL Server 中表的事务隔离级别
- rust - 如何指定我想要一个泛型类型来支持“新”
- linux - 带有这个“-”符号的命令有什么作用?
- ios - 如何在应用程序 iOS 中查看 XCode 的控制台日志?
- python - 如何在 Django 中批量 get_or_create?
- javascript - 如何在图像滑块上设置滑动动画
- php - PHP 从 Json 中选择数据