首页 > 解决方案 > 如何通过气流在 s3 中运行 python 脚本

问题描述

我们通常将我们的代码存储在 s3 中并从气流中调用它以将它们添加为 emr 中的新步骤。spark-submit 可以从 s3 读取数据(如 jars 和文件)。但是我如何从气流中调用 s3 中存在的 python 脚本?这是一个简单的 boto3 脚本。请给我一些指导。

标签: pythonamazon-web-servicesamazon-s3airflow

解决方案


我认为这是一种通过 ariflow 实际运行 emr 工作的方式。为什么您甚至需要添加步骤。您最简单的选择是使用连接到 emr 的 ssh 运算符,然后通过 ssh 运算符执行 spark-submit。spark-submit 将从 s3 获取您的代码,然后运行作业。


推荐阅读