首页 > 解决方案 > 使用 AWS Glue ETL python spark (pyspark) 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件

问题描述

我每 15 分钟运行一次 AWS Glue ETL 作业,每次在 S3 中生成 1 个镶木地板文件。

我需要创建另一个作业以在每小时结束时运行,以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 parquet 文件合并到 1 个单个 parquet 文件。

有人试过吗?建议和最佳实践?

提前致谢!

标签: amazon-s3pysparkparquetaws-glue

解决方案


好吧..一个简单的选择是将其转换为火花数据框

1)将镶木地板读入动态框架(或者更好,只需将其读为 spark 数据帧) 2)sourcedf.toDF().repartition(1)


推荐阅读