首页 > 解决方案 > 数据融合管道失败而不执行

问题描述

我有 50 多个数据融合管道在 DataFusion 的企业版中同时运行。其中大约 4 个在每次并发运行时随机失败,日志中仅显示配置操作,然后是取消配置 Dataproc 集群,如以下日志所示:

2021-04-29 12:52:49,936 - INFO  [provisioning-service-4:i.c.c.r.s.p.d.DataprocProvisioner@203] - Creating Dataproc cluster cdap-fm-smartd-cc94285f-a8e9-11eb-9891-6ea1fb306892 in project project-test, in region europe-west2, with image 1.3, with system labels {goog-datafusion-version=6_1, cdap-version=6_1_4-1598048594947, goog-datafusion-edition=enterprise}
2021-04-29 12:56:08,527 - DEBUG [provisioning-service-1:i.c.c.i.p.t.ProvisioningTask@116] - Completed PROVISION task for program run program_run:default.[pipeline_name].-SNAPSHOT.workflow.DataPipelineWorkflow.cc94285f-a8e9-11eb-9891-6ea1fb306892.
2021-04-29 13:04:01,678 - DEBUG [provisioning-service-7:i.c.c.i.p.t.ProvisioningTask@116] - Completed DEPROVISION task for program run program_run:default.[pipeline_name].-SNAPSHOT.workflow.DataPipelineWorkflow.cc94285f-a8e9-11eb-9891-6ea1fb306892.

当失败的管道重新启动时,它会成功完成执行。所有管道都通过 Composer 使用异步启动和自定义等待 SensorOperator 启动和监控。没有超出配额的警告。

附加信息:带有 Dataporc 临时集群的 Data Fusion 6.1.4,具有 1 个主 2 个工作人员。映像版本 1.3.89

编辑

关联到每个失败管道的 appfabric 日志是:

WARN  [program.status:i.c.c.i.a.r.d.DistributedProgramRuntimeService@172] - Twill RunId does not exist for the program program:default.[pipeline_name].-SNAPSHOT.workflow.DataPipelineWorkflow, runId f34a6fb4-acb2-11eb-bbb2-26edc49aada0

WARN  [pool-11-thread-1:i.c.c.i.a.s.RunRecordCorrectorService@141] - Fixed RunRecord for program run program_run:default.[piepleine_name].-SNAPSHOT.workflow.DataPipelineWorkflow.fdc22f56-acb2-11eb-bbcf-26edc49aada0 in STARTING state because it is actually not running

当发出许多并发请求(通过 REST API)时,进一步的研究以某种方式将问题与 CDAP 运行记录中的不一致状态联系起来。

标签: google-cloud-platformgoogle-cloud-dataprocgoogle-cloud-composergoogle-cloud-data-fusion

解决方案


推荐阅读