google-cloud-data-fusion - 输出的 CSV 文件与 Google Cloud Storage Sink 插件分开
问题描述
我一直在管道中的 Sink 类别下使用 Google Cloud Storage Plugin,以获取 CSV 格式的输出。管道执行后,结果输出在拆分后进入多个文件。这是这个插件的正确行为吗?如果是,那么有没有办法在单个文件中获取合并的输出?
编辑:这似乎是插件的正确行为,在https://cloud.google.com/storage/docs/composite-objects中提到。分片是为了支持并行上传。但现在我的问题是,有没有一种简单的方法来组合所有这些拆分的文件?
解决方案
在输出目录中发现多个文件是预期的行为,因为 Cloud Data Fusion 在下面使用 Spark/MapReduce 来并行化管道逻辑的执行。
将输出文件合并为一个时,您对排序有什么要求吗?
推荐阅读
- javascript - 如何每次数五而不是一
- c# - 如何在.Net中添加关注者
- php - 如何使用带有复选框的 PHP 表单从 mySQL 中选择数据?
- flutter - Flutter in_app_purchase 未在 Android 上加载
- terraform - 在使用 terraform 部署脚本以在 Azure 数据工厂中启用客户管理的密钥时,我收到一个错误,如下所述
- javascript - 如何使用 Chrome.storage Chrome 扩展程序保存数据 [MV2]
- c# - 如何使用现有的 PDB 文件反编译我的 DLL 文件以恢复我的代码以便识别?
- android - minifiyEnabled 在 android 启动屏幕后导致应用程序崩溃
- c# - 生成链接以确认电子邮件在 ASP.NET Core API 中返回 null
- azure - 如何使用 Azure AD B2C 作为 Amazon Cognito 的 IdP