首页 > 解决方案 > 未为 ml-pipeline pod 指定配置 DBConfig.ExtraParams

问题描述

我已经使用清单安装了 Kubeflow。安装 ml-pipeline 后,pod 处于“CrashLoopBackOff”状态。我将 ml-pipeline、ml-pipeline-ui 和 ml-pipeline-msql 的目标规则更改为 DISABLE,但没有运气。有人能帮忙吗?

提前致谢。

标签: kubernetesgoogle-kubernetes-enginekubeflowkubeflow-pipelines

解决方案


此 POD 的状态有很多可能的根本原因,但我将尝试关注最常见的原因。要为您的准确情况选择正确的一个,您需要查看“describe”和来自具有“CrashLoopBackOff”状态的 POD 的日志。

验证“describe”是否显示类似“Back-off restarting failed container”和日志是否显示“必须为……指定容器名称”、“F ml_metadata/metadata_store/metadata_store_server_main.cc:219] 非 OK-地位 …”。

如果是,问题是定期动态卷配置,可能是因为没有安装卷配置。

另一方面,您可以验证集群的大小,因为只有在清单文件中减少每个服务请求的 CPU 时,少于 8 个 CPU 的东西才会运行。

您尚未提供有关受影响 POD 的详细信息;但另一种选择是尝试在您的 K8s 集群上仅安装 Katib(没有 Kubeflow 或其他资源),以验证其他 Kubernetes 资源不会影响此连接。更多经验案例的排查和解决方法可以参考以下 URL 信息:Multiple Pods cast in CrashLoopBackOff , katib-mysql , ml-pipeline-persistenceagent pod keep crashing

最后只需确认您遵循了正确的说明,基于您用于部署 Kubeflow 的 Distribution,您可以访问以下 URL:Kubeflow Distributions


推荐阅读