首页 > 解决方案 > 如何解决 Google Data Fusion 中的此错误:“阶段 x 包含一个非常大的任务 (2803 KB)。建议的最大任务大小为 100 KB。”

问题描述

我需要将数据从参数化的 S3 存储桶移动到 Google Cloud Storage。基本数据转储。我不拥有 S3 存储桶。它具有以下语法,

s3://data-partner-bucket/mykey/folder/date=2020-10-01/hour=0

我能够使用 Data Fusion 提供的 Amazon S3 客户端以小时为单位传输数据。我想带来超过一天的数据,所以我将客户端中的路径重置为:

s3://data-partner-bucket/mykey/folder/date=2020-10-01

似乎它一直在工作,直到它停止。状态为“已停止”。当我在它停止之前查看日志时,我看到一条警告,“第 0 阶段包含一个非常大的任务 (2803 KB)。建议的最大任务大小为 100 KB。”

我检查了 S3 存储桶中的数据。每个文件夹都包含一系列日志文件。它们都不是“大”的。最大的文件夹总共包含 3MB 的数据。

对于这个错误,我看到了一个类似的问题,但答案涉及我在 Data Fusion 中无法访问的 Spark 编码。

Amazon S3 客户端中的高级设置的屏幕截图

这些是我在客户端看到的设置。也许我需要设置另一个设置?我需要做什么才能让 Data Fusion 将这些文件从 S3 导入 GCS?

标签: amazon-s3google-cloud-data-fusion

解决方案


部署管道时,您将被重定向到顶部带有功能区的新页面。功能区中的工具之一是配置

配置模式的资源部分,您可以指定内存资源。摆弄着数字。1000MB 工作。6MB 还不够。(为了我。)

我在大约 46 分钟内处理了 756K 条记录。


推荐阅读