首页 > 解决方案 > 输出的 CSV 文件与 Google Cloud Storage Sink 插件分开

问题描述

我一直在管道中的 Sink 类别下使用 Google Cloud Storage Plugin,以获取 CSV 格式的输出。管道执行后,结果输出在拆分后进入多个文件。这是这个插件的正确行为吗?如果是,那么有没有办法在单个文件中获取合并的输出?

编辑:这似乎是插件的正确行为,在https://cloud.google.com/storage/docs/composite-objects中提到。分片是为了支持并行上传。但现在我的问题是,有没有一种简单的方法来组合所有这些拆分的文件?

标签: google-cloud-data-fusion

解决方案


在输出目录中发现多个文件是预期的行为,因为 Cloud Data Fusion 在下面使用 Spark/MapReduce 来并行化管道逻辑的执行。

将输出文件合并为一个时,您对排序有什么要求吗?


推荐阅读