amazon-web-services - aws glue python shell 作业与 spark 作业的最佳用例是什么?
问题描述
一直在使用 aws glue python shell 作业来构建简单的数据 etl 作业,对于 spark 作业,只使用过一次或两次转换为 orc 格式或在 JDBC 数据上执行 spark sql。所以想知道它们每个人的最佳/典型用例是什么?一些文件说 python shell 工作适合简单的工作,而 spark 适合更复杂的工作,对吗?你能分享更多这方面的经验吗?
非常感谢
解决方案
如果您不需要太多计算能力来运行轻型 ETL 工作负载,请使用 AWS Glue Python shell。当您必须水平、垂直或同时扩展两者时,将 AWS Glue 与 Spark 结合使用。
推荐阅读
- c - 有没有办法在返回数组中不使用指针?(警告:传递 'arrangef' 的参数 1 使指针从整数而不进行强制转换。)
- fortran - 如何在节点之间使用 mpi_shared 内存?
- graphql - GatsbyJS 中的 GraphQL 参数来自 gatsby-node.js 中的上下文
- javascript - 如何在 video.js 中捕获手动搜索?
- r - 如何在 R Shiny 中创建雷达图
- java - 合并多个流并写入已排序的输出流
- pandas - 熊猫数据框中的组分析
- python - 有没有办法将 GIMP 步骤以操作图像转换为 GEGL 函数调用?
- excel - 如何操作#REF!价值
- angular - 模板中的可观察对象调用 api 两次