amazon-web-services - Glue 管道中的多个 S3 输入
问题描述
我在 3 个独立的 S3 存储桶中有 3 个独立的数据源(文件)。这 3 个来源中的模式彼此不同,但时间戳是相同的(以纪元为单位的每小时)。
以前,我使用 Glue 从 1 个存储桶中读取数据,并将转换应用于该存储桶中的文件,然后写入生成的存储桶。
使用 3 个数据源,我是否仍然可以从 3 个不同的存储桶中读取它们并以某种方式在纪元时间戳上加入它们,然后吐出统一的数据源(所有 3 个的组合).. 我猜 Glue 将不得不在此执行行级 JOINS案子。
到目前为止,我在网上找到的关于 Glue 的博客文章只讨论了单源输入和转换。
如果这不可能我问的方式?否则你会怎么做?
解决方案
我不太确定你在问什么,但Glue Dynamic Dataframe 支持连接操作,尽管它仅限于内部连接。Spark 数据帧具有强大的连接方法,支持内部、外部和交叉连接。因此,您应该能够将所有三个 S3 位置加载到(动态)数据帧中并加入它们以获得可以转换和写出的单个结果集。
推荐阅读
- python - Django 为 ordering_fields 使用计算字段
- cordova - 防止包含 target=“_blank” 链接的 iframe 接管应用程序
- pandas - 使用 DateOffset 重新采样可以给出 NotImplementedError
- redis - BITOP NOT 在 Redis 5.0.5 中无法正常工作
- php - Laravel 6.3.0 + Apache2 - 内核加载后连接被重置
- timezone - Jekyll:欧洲的周数
- ddev - 如何在 DDEV Web 容器中添加和使用 nvm?
- teradata - 将粘贴结果从 Teradata SQL 助手复制到 Excel
- excel - 在工作簿之间查找和复制一系列数据
- java - 无法从正在编写 Java 的文档中复制间接对象