google-cloud-platform - 数据融合管道失败而不执行
问题描述
我有 50 多个数据融合管道在 DataFusion 的企业版中同时运行。其中大约 4 个在每次并发运行时随机失败,日志中仅显示配置操作,然后是取消配置 Dataproc 集群,如以下日志所示:
2021-04-29 12:52:49,936 - INFO [provisioning-service-4:i.c.c.r.s.p.d.DataprocProvisioner@203] - Creating Dataproc cluster cdap-fm-smartd-cc94285f-a8e9-11eb-9891-6ea1fb306892 in project project-test, in region europe-west2, with image 1.3, with system labels {goog-datafusion-version=6_1, cdap-version=6_1_4-1598048594947, goog-datafusion-edition=enterprise}
2021-04-29 12:56:08,527 - DEBUG [provisioning-service-1:i.c.c.i.p.t.ProvisioningTask@116] - Completed PROVISION task for program run program_run:default.[pipeline_name].-SNAPSHOT.workflow.DataPipelineWorkflow.cc94285f-a8e9-11eb-9891-6ea1fb306892.
2021-04-29 13:04:01,678 - DEBUG [provisioning-service-7:i.c.c.i.p.t.ProvisioningTask@116] - Completed DEPROVISION task for program run program_run:default.[pipeline_name].-SNAPSHOT.workflow.DataPipelineWorkflow.cc94285f-a8e9-11eb-9891-6ea1fb306892.
当失败的管道重新启动时,它会成功完成执行。所有管道都通过 Composer 使用异步启动和自定义等待 SensorOperator 启动和监控。没有超出配额的警告。
附加信息:带有 Dataporc 临时集群的 Data Fusion 6.1.4,具有 1 个主 2 个工作人员。映像版本 1.3.89
编辑
关联到每个失败管道的 appfabric 日志是:
WARN [program.status:i.c.c.i.a.r.d.DistributedProgramRuntimeService@172] - Twill RunId does not exist for the program program:default.[pipeline_name].-SNAPSHOT.workflow.DataPipelineWorkflow, runId f34a6fb4-acb2-11eb-bbb2-26edc49aada0
WARN [pool-11-thread-1:i.c.c.i.a.s.RunRecordCorrectorService@141] - Fixed RunRecord for program run program_run:default.[piepleine_name].-SNAPSHOT.workflow.DataPipelineWorkflow.fdc22f56-acb2-11eb-bbcf-26edc49aada0 in STARTING state because it is actually not running
当发出许多并发请求(通过 REST API)时,进一步的研究以某种方式将问题与 CDAP 运行记录中的不一致状态联系起来。
解决方案
推荐阅读
- firebase - 如果我达到了 Firebase 配额,我在哪里可以看到
- kotlin - 如何在 SharedElementTransition 中使用 LottieAnimationView?
- r - 将 Fill_Value 插入 R 中的 nc 文件
- c# - 为什么在 wsdl 中更改 tempui.org 使我的服务正常工作?
- r - 如何计算R中的移动平均线?
- powershell - Powershell 调用-sqlcmd“选择查询哈希”
- mysql - 在没有函数或存储过程的 MySQL 中创建循环查询
- css - 与 Firefox 相比,Google chrome 显示了不同的结果
- asp.net-mvc - 为什么 IIS 重写为 HTTPS 会导致 301 错误循环?
- flutter - 使用 MultiPartRequest 上传多张图片:内容大小低于指定的 contentLength