amazon-web-services - 将 S3 不明确的文件夹结构复制到简单的 s3 文件夹
问题描述
我有像这个 bucket/market/date/business/hr/*.parquet 这样的 S3 文件夹结构,其中只有存储桶名称是固定的,其余都是可变的。
我想每天将这些数据合并并复制到每个市场的单个文件夹中。例如 -
前桶结构
-bucket
-----usa
----------2020-10-11
-----------------------07
--------------------------1.parquet
--------------------------2.parquet
-----------------------09
--------------------------1.parquet
----------2020-10-12
-----------------------12
--------------------------1.parquet
--------------------------2.parquet
-----------------------22
--------------------------1.parquet
--------------------------2.parquet
--------------------------3.parquet
-----mx
----------2020-10-11
-----------------------17
--------------------------1.parquet
--------------------------2.parquet
-----------------------19
--------------------------1.parquet
处理桶结构后,我正在寻找合并所有数据桶/市场/日期/* .parquet
-bucket
-----usa
----------2020-10-11
------------------------1.parquet
----------2020-10-12
------------------------1.parquet
-----mx
----------2020-10-11
------------------------1.parquet
如果我安排胶水作业,最好的方法是什么。我如何合并这些变量以理解这里的变量是示例,业务可以是 b1、b2、b3 和 hr,其中镶木地板数据驻留在 1、2、9 的 date-x 中。业务可以是 b2,b3 和 hr 6,7,10 日期-y 寻找建议。
我曾尝试在 AWS 之外读取这些数据并将其合并并发布回 S3,但成本很高,因此需要寻找替代选项。
解决方案
推荐阅读
- jenkins - 如何获取安装特定插件的 Jenkins 用户?
- asynchronous - 无法让计算在颤振上工作
- c# - 在鼠标悬停的图像标签中放大图像
- firebase - Firebase Google Auth 离线 access_type 以获取 refresh_token
- sympy - 如何在 sympy 中扩展具有多个变量的对数?
- php - 收到新请求时中止繁重的 apache 请求
- sql - 具有 oracle 数据库表的搜索引擎
- c++ - 如何使用 c++ 中的 ipp 库从信号中生成 fft?
- javascript - offset().top 在附加元素上没有返回正确的值
- apache-kafka-streams - 更改 KStream 的滑动窗口应用程序的窗口大小\跳数