kubernetes - 未为 ml-pipeline pod 指定配置 DBConfig.ExtraParams
问题描述
我已经使用清单安装了 Kubeflow。安装 ml-pipeline 后,pod 处于“CrashLoopBackOff”状态。我将 ml-pipeline、ml-pipeline-ui 和 ml-pipeline-msql 的目标规则更改为 DISABLE,但没有运气。有人能帮忙吗?
提前致谢。
解决方案
此 POD 的状态有很多可能的根本原因,但我将尝试关注最常见的原因。要为您的准确情况选择正确的一个,您需要查看“describe”和来自具有“CrashLoopBackOff”状态的 POD 的日志。
验证“describe”是否显示类似“Back-off restarting failed container”和日志是否显示“必须为……指定容器名称”、“F ml_metadata/metadata_store/metadata_store_server_main.cc:219] 非 OK-地位 …”。
如果是,问题是定期动态卷配置,可能是因为没有安装卷配置。
另一方面,您可以验证集群的大小,因为只有在清单文件中减少每个服务请求的 CPU 时,少于 8 个 CPU 的东西才会运行。
您尚未提供有关受影响 POD 的详细信息;但另一种选择是尝试在您的 K8s 集群上仅安装 Katib(没有 Kubeflow 或其他资源),以验证其他 Kubernetes 资源不会影响此连接。更多经验案例的排查和解决方法可以参考以下 URL 信息:Multiple Pods cast in CrashLoopBackOff , katib-mysql , ml-pipeline-persistenceagent pod keep crashing。
最后只需确认您遵循了正确的说明,基于您用于部署 Kubeflow 的 Distribution,您可以访问以下 URL:Kubeflow Distributions
推荐阅读
- android - 是否可以在 jetpack compose 中“缩放”任何小部件的宽度和高度?
- git - 使用 git 标签从 makefile 创建 json 文件
- javascript - 下面的片段是什么意思?
- amazon-web-services - Streams 和 Firehose 的用例是什么?
- python - 在 macOS Catalina 和 Python 2 下打开没有 xattr 的文本文件会出现“不允许操作”
- c# - RedirectToAction 后返回调用方法
- python - 试图用python 3找到2个高斯整数的GCD
- javascript - 调用 api 的 js 函数未响应预期值
- python - 散景:从服务器回调中添加注释/字形
- python - 如果 Python 的代码直接在本机机器上运行,它会不会快得多?