amazon-s3 - 如何解决 Google Data Fusion 中的此错误:“阶段 x 包含一个非常大的任务 (2803 KB)。建议的最大任务大小为 100 KB。”
问题描述
我需要将数据从参数化的 S3 存储桶移动到 Google Cloud Storage。基本数据转储。我不拥有 S3 存储桶。它具有以下语法,
s3://data-partner-bucket/mykey/folder/date=2020-10-01/hour=0
我能够使用 Data Fusion 提供的 Amazon S3 客户端以小时为单位传输数据。我想带来超过一天的数据,所以我将客户端中的路径重置为:
s3://data-partner-bucket/mykey/folder/date=2020-10-01
似乎它一直在工作,直到它停止。状态为“已停止”。当我在它停止之前查看日志时,我看到一条警告,“第 0 阶段包含一个非常大的任务 (2803 KB)。建议的最大任务大小为 100 KB。”
我检查了 S3 存储桶中的数据。每个文件夹都包含一系列日志文件。它们都不是“大”的。最大的文件夹总共包含 3MB 的数据。
对于这个错误,我看到了一个类似的问题,但答案涉及我在 Data Fusion 中无法访问的 Spark 编码。
这些是我在客户端看到的设置。也许我需要设置另一个设置?我需要做什么才能让 Data Fusion 将这些文件从 S3 导入 GCS?
解决方案
推荐阅读
- c# - 在多个构造函数参数中注入具有相同接口的不同实现
- powershell - 在 PowerShell 中从 CNAME 解析主机名
- javascript - 阻止用户从嵌入的 YouTube 视频中获取 url/禁用剪贴板
- sql - Entity Framework 生成的 SQL 运行速度极慢
- web-scraping - 从延迟加载的视频中抓取视频链接
- reactjs - 注入一个反应组件作为背景图像
- javascript - 使用reactjs创建表时如何删除连续重复的数据条目
- apache-spark - 如何从列标题中的大 rdd 创建 rdd
- javascript - 反应原生不从父应用调用Android原生方法
- ruby-on-rails - Capybara:Scraper 访问的是加拿大网站而不是美国网站。Indeed.com