首页 > 解决方案 > 基于模板的数据流作业使用相同的临时目录

问题描述

我们正在测试从一个模板运行多个 Dataflow 作业,多个作业通常同时运行。

我们发现作业使用相同的临时目录,基于创建模板时的时间戳,而不是作业运行时的时间戳。

这是一个示例临时目录:

.temp-beam-2018-08-02_20-11-52-18/

我们看到多个作业在存储桶中使用这些相同的临时目录。

这似乎是 Beam 中的相关代码行:https ://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/ FileBasedSink.java#L532

请注意,临时 ID 是一个递增的数字,临时目录中唯一的其他熵是时间戳,我们发现它基于模板创建时间,而不是作业运行时间。

对于使用相同临时目录的多个作业,它们会干扰彼此的数据吗?有没有解决的办法?

标签: google-cloud-dataflow

解决方案


推荐阅读