amazon-s3 - 使用 AWS Glue ETL python spark (pyspark) 将多个 parquet 文件合并到 AWS S3 中的单个 parquet 文件
问题描述
我每 15 分钟运行一次 AWS Glue ETL 作业,每次在 S3 中生成 1 个镶木地板文件。
我需要创建另一个作业以在每小时结束时运行,以使用 AWS Glue ETL pyspark 代码将 S3 中的所有 4 个 parquet 文件合并到 1 个单个 parquet 文件。
有人试过吗?建议和最佳实践?
提前致谢!
解决方案
好吧..一个简单的选择是将其转换为火花数据框
1)将镶木地板读入动态框架(或者更好,只需将其读为 spark 数据帧) 2)sourcedf.toDF().repartition(1)
推荐阅读
- r - 如何解决 ggplot2 错误“FUN 中的错误(X[[i]],...):找不到对象'melanoma.hx'”
- c# - 使用 Vue 和 ASP.NET Core DTO 模型的 JSON Oject 的 JSON 序列化问题
- javascript - 如何让我的函数处理多个字符串数组?
- javascript - 通过提供的对象在 Javascript 数组中查找对象的索引
- android - Arduino Nano 33 BLE 是否可以使用自定义有效负载进行广告宣传?
- apache-kafka - 有没有办法将变压器添加到 Kafka Strimzi MirrorMaker2?
- r - 通过 R 脚本执行 R 文件
- php - php算法中的意外输出
- asp.net-mvc - ASP.NET MVC 路由值和视图模型
- android - Android Studio 4.0 新用户界面