google-cloud-dataflow - TFX Evaluator 不在 Dataflow 中运行,因此由于 pod 内存不足而失败
问题描述
我正在基于 TFX 的 AI Platform 管道中运行管道。在 Evaluator 之前,所有组件都运行良好。它只是不想在 Dataflow 上运行,它在 Kubeflow pod 中运行,所以它失败了,因为那里没有足够的内存。
Apache Beam 配置设置为使用 Dataflow 作为运行器运行,因此 ExampleGen、StatisticsGen、ExampleValidator 等其他组件在 Dataflow 中都可以正常运行。
当涉及到 Evaluator 组件时,它甚至没有生成日志就失败了。抱怨错误(在 Kubeflow UI 中):
“此步骤处于失败状态,并显示以下消息:节点资源不足:内存。容器主使用 2093880Ki,超过其请求 0。容器等待使用 13492Ki,超过其请求 0。”
解决方案
我可以通过将 TFX 版本设置为 0.25.0 来解决此问题。
推荐阅读
- escpos - 如何使用 ESC/POS 命令定义代码 > 126 的自定义字符?
- python - 如何找到一个字符序列在字符串中连续重复的最大次数?
- excel - 未找到方法或数据成员用户表单
- catboost - 使用catboostclassifier模型的输出python文件预测的结果与直接使用模型预测的结果不同
- asp.net - ResolveUrl XSS 问题的全局解决方案
- html - 如何在放大网格布局时使 div 不移动
- java - Spring消费soap web服务,wsdl问题
- python - 循环遍历目录并清理文件
- routes - 如果没有斜杠,Openshift 路线将不起作用
- google-apps-script - Google App JDBC.getConnection 失败并出现错误异常:连接 URL 使用不受支持的 JDBC 协议