首页 > 解决方案 > Google Cloud DataPrep 计划正在生成多个 DataFlow 作业

问题描述

我有一个时间表,每天运行两次我的流程 - 在 0910 和 1520 BST。

在此处输入图像描述

这产生了大量的 DataFlow 作业 - 到目前为止,今天仅第二个计划 (1520) 已经产生了80个作业:

$ gcloud dataflow jobs list
JOB_ID                                    NAME                             TYPE   CREATION_TIME        STATE      REGION
2018-07-29_12_17_06-14876588186269022154  project-name-513008-by-username  Batch  2018-07-29 19:17:07  Running    us-central1
2018-07-29_12_14_54-6436458673562317581   project-name-512986-by-username  Batch  2018-07-29 19:14:55  Cancelled  us-central1
2018-07-29_12_13_55-6167618802124600084   project-name-512985-by-username  Batch  2018-07-29 19:13:57  Cancelled  us-central1
...

完整列表请参见 PasteBin

在上周 DataPrep 更新后的几天里,我无法访问流的运行设置 URL。我怀疑作为运行设置的一部分,有一个过程会返回流程(我有 12 个由参考数据集链接的流程)并对其进行完整性检查 - 似乎我的流程正处于足够复杂的风口浪尖上页面加载超时,我不得不删掉几个步骤才能进入运行设置。

我想知道是否每次超时,它都会以某种方式重复计划或过程中的其他东西 - 但话又说回来,重复作业的数量是不一致的。

我最近在看到一些采样错误问题后重建了这个项目(因为样本已损坏,因此我无法加载转换 UI,也无法构建新样本)。经过大量尝试解决该问题后,我抓住机会将其重新构建为具有结构改进等的专用 GCP 项目。在重新构建之前我没有看到此调度错误。

标签: google-cloud-platformgoogle-cloud-dataflowgoogle-cloud-dataprep

解决方案


推荐阅读