首页 > 解决方案 > 将 S3 不明确的文件夹结构复制到简单的 s3 文件夹

问题描述

我有像这个 bucket/market/date/business/hr/*.parquet 这样的 S3 文件夹结构,其中只有存储桶名称是固定的,其余都是可变的。

我想每天将这些数据合并并复制到每个市场的单个文件夹中。例如 -

前桶结构

-bucket
-----usa
----------2020-10-11
-----------------------07
--------------------------1.parquet
--------------------------2.parquet
-----------------------09
--------------------------1.parquet
----------2020-10-12
-----------------------12
--------------------------1.parquet
--------------------------2.parquet
-----------------------22
--------------------------1.parquet
--------------------------2.parquet
--------------------------3.parquet
-----mx
----------2020-10-11
-----------------------17
--------------------------1.parquet
--------------------------2.parquet
-----------------------19
--------------------------1.parquet

处理桶结构后,我正在寻找合并所有数据桶/市场/日期/* .parquet

-bucket
-----usa
----------2020-10-11
------------------------1.parquet
----------2020-10-12
------------------------1.parquet
-----mx
----------2020-10-11
------------------------1.parquet

如果我安排胶水作业,最好的方法是什么。我如何合并这些变量以理解这里的变量是示例,业务可以是 b1、b2、b3 和 hr,其中镶木地板数据驻留在 1、2、9 的 date-x 中。业务可以是 b2,b3 和 hr 6,7,10 日期-y 寻找建议。

我曾尝试在 AWS 之外读取这些数据并将其合并并发布回 S3,但成本很高,因此需要寻找替代选项。

标签: amazon-web-servicesamazon-s3aws-glueaws-glue-data-catalog

解决方案


推荐阅读