apache-spark - AWS Glue 与 AWS EMR - 在 Spark 作业中覆盖 S3 文件
问题描述
我有一个在 EMR 上运行并从 S3(嵌套 json 文件)读取数据集的 Spark 作业,将其与其他数据集连接并明确覆盖几个 S3 文件。
那么,这不是标准的 ETL 用例,但 AWS Glue 能否提供相同的功能?如果是,Glue 是否比 EMR 便宜?
解决方案
是的,Glue 也应该可以使用上述用例,认为您可以展平嵌套的 JSON 文件,并进一步处理以加入其他数据集,写回 S3。
至于成本比较,请注意 AWS Glue 比普通 EMR 贵一点。这是因为 Glue 除了其数据目录、开发端点、ETL 代码生成器等功能外,还意味着无服务并由 AWS 管理。请参阅此处了解 Glue 和 EMR 的成本比较。
推荐阅读
- spring - Spring Retry 中异常表达式的使用
- ruby - 设置关键进程 Ruby FFI
- python - 如何仅使用 boto3 获取与特定名称匹配的 EMR 的 ID
- mysql - 按列追加表 MySQL
- html - 即使名称属性设置正确,jQuery 验证也不起作用
- node.js - Nanoexpress 服务器在 Heroku 和 AWS 上失败 - 在本地运行良好 - 无法跟踪“dest.on()”错误
- python - 全局字典和 dict_items
- python-3.x - python3中如何让每个线程发送多个请求?
- android - 当当前工作人员仍在运行时,Android 工作管理器会在 10 分钟后调用工作人员
- c# - 如何使 Microsoft.Toolkit.Wpf.UI.Controls.WebView 窗口在 xaml 中可调整大小