首页 > 解决方案 > AWS Glue 与 AWS EMR - 在 Spark 作业中覆盖 S3 文件

问题描述

我有一个在 EMR 上运行并从 S3(嵌套 json 文件)读取数据集的 Spark 作业,将其与其他数据集连接并明确覆盖几个 S3 文件。

那么,这不是标准的 ETL 用例,但 AWS Glue 能否提供相同的功能?如果是,Glue 是否比 EMR 便宜?

标签: apache-sparkamazon-emraws-glue

解决方案


是的,Glue 也应该可以使用上述用例,认为您可以展平嵌套的 JSON 文件,并进一步处理以加入其他数据集,写回 S3。

至于成本比较,请注意 AWS Glue 比普通 EMR 贵一点。这是因为 Glue 除了其数据目录、开发端点、ETL 代码生成器等功能外,还意味着无服务并由 AWS 管理。请参阅此处了解 Glue 和 EMR 的成本比较。


推荐阅读