首页 > 解决方案 > TFX Evaluator 不在 Dataflow 中运行,因此由于 pod 内存不足而失败

问题描述

我正在基于 TFX 的 AI Platform 管道中运行管道。在 Evaluator 之前,所有组件都运行良好。它只是不想在 Dataflow 上运行,它在 Kubeflow pod 中运行,所以它失败了,因为那里没有足够的内存。

Apache Beam 配置设置为使用 Dataflow 作为运行器运行,因此 ExampleGen、StatisticsGen、ExampleValidator 等其他组件在 Dataflow 中都可以正常运行。

当涉及到 Evaluator 组件时,它甚至没有生成日志就失败了。抱怨错误(在 Kubeflow UI 中):

“此步骤处于失败状态,并显示以下消息:节点资源不足:内存。容器主使用 2093880Ki,超过其请求 0。容器等待使用 13492Ki,超过其请求 0。”

标签: google-cloud-dataflowtfxkubeflow-pipelinesgoogle-cloud-ai-platform-pipelines

解决方案


我可以通过将 TFX 版本设置为 0.25.0 来解决此问题。


推荐阅读