amazon-web-services - 从 Glue 目录和 Glue Py Spark 脚本中的动态路径同步 CSV 文件

我每天都将 CSV 文件存储在 AWS s3 中。Bellow是我的S3文件路径结构：

s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv

在这种结构中，每天都会生成 s3 文件路径的日期部分。

现在我想使用 AWS 胶水进行 ETL 将数据从 S3 传送到 Redshift。要使用它，如何在数据目录中添加 S3 路径？我只想同步最近的文件夹 CSV 文件。

同样对于作业部分，我如何在 Glue Pyspark 脚本中声明此动态路径？

标签： amazon-web-servicesamazon-s3pysparkaws-glue

如果您只想同步，则不需要 etl。您可以使用copyredshift 中的命令进行同步。您可以按计划的时间间隔运行 python shell 作业，或者使用 s3 事件编写 lambda/sns 以在所有文件进入 s3 时立即触发。