首页 > 解决方案 > 从 Glue 目录和 Glue Py Spark 脚本中的动态路径同步 CSV 文件

问题描述

我每天都将 CSV 文件存储在 AWS s3 中。Bellow是我的S3文件路径结构:

s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv

在这种结构中,每天都会生成 s3 文件路径的日期部分。

现在我想使用 AWS 胶水进行 ETL 将数据从 S3 传送到 Redshift。要使用它,如何在数据目录中添加 S3 路径?我只想同步最近的文件夹 CSV 文件。

同样对于作业部分,我如何在 Glue Pyspark 脚本中声明此动态路径?

标签: amazon-web-servicesamazon-s3pysparkaws-glue

解决方案


如果您只想同步,则不需要 etl。您可以使用copyredshift 中的命令进行同步。您可以按计划的时间间隔运行 python shell 作业,或者使用 s3 事件编写 lambda/sns 以在所有文件进入 s3 时立即触发。


推荐阅读