首页 > 解决方案 > Glue 管道中的多个 S3 输入

问题描述

我在 3 个独立的 S3 存储桶中有 3 个独立的数据源(文件)。这 3 个来源中的模式彼此不同,但时间戳是相同的(以纪元为单位的每小时)。

以前,我使用 Glue 从 1 个存储桶中读取数据,并将转换应用于该存储桶中的文件,然后写入生成的存储桶。

使用 3 个数据源,我是否仍然可以从 3 个不同的存储桶中读取它们并以某种方式在纪元时间戳上加入它们,然后吐出统一的数据源(所有 3 个的组合).. 我猜 Glue 将不得不在此执行行级 JOINS案子。

到目前为止,我在网上找到的关于 Glue 的博客文章只讨论了单源输入和转换。

如果这不可能我问的方式?否则你会怎么做?

标签: amazon-web-servicesamazon-s3aws-glueaws-data-pipeline

解决方案


我不太确定你在问什么,但Glue Dynamic Dataframe 支持连接操作,尽管它仅限于内部连接。Spark 数据帧具有强大的连接方法,支持内部、外部和交叉连接。因此,您应该能够将所有三个 S3 位置加载到(动态)数据帧中并加入它们以获得可以转换和写出的单个结果集。


推荐阅读