amazon-s3 - 使用 AWS Glue ETL python spark (pyspark) 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件

我每 15 分钟运行一次 AWS Glue ETL 作业，每次在 S3 中生成 1 个镶木地板文件。

我需要创建另一个作业以在每小时结束时运行，以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 parquet 文件合并到 1 个单个 parquet 文件。

有人试过吗？建议和最佳实践？

提前致谢！

标签： amazon-s3pysparkparquetaws-glue

好吧..一个简单的选择是将其转换为火花数据框

1）将镶木地板读入动态框架（或者更好，只需将其读为 spark 数据帧） 2）sourcedf.toDF().repartition(1)