python - 如何通过气流在 s3 中运行 python 脚本
问题描述
我们通常将我们的代码存储在 s3 中并从气流中调用它以将它们添加为 emr 中的新步骤。spark-submit 可以从 s3 读取数据(如 jars 和文件)。但是我如何从气流中调用 s3 中存在的 python 脚本?这是一个简单的 boto3 脚本。请给我一些指导。
解决方案
我认为这是一种通过 ariflow 实际运行 emr 工作的方式。为什么您甚至需要添加步骤。您最简单的选择是使用连接到 emr 的 ssh 运算符,然后通过 ssh 运算符执行 spark-submit。spark-submit 将从 s3 获取您的代码,然后运行作业。
推荐阅读
- python - 使用 python 从亚马逊页面获取 ASIN 编号
- java - 提高休眠查询性能
- swift - 单元格不会显示在 UICollectionView 上
- wordpress - 如何从 CloudFront CDN 提供 WordPress 插件文件(JS 和 CSS)?
- java - 在 Spring Boot/Spring Data MongoDB 中找不到 Repository bean
- react-native - 在 React Native 中清除输入
- python - ImportError: No module named 'PyQt5.Qsci' [1016] 无法执行脚本接口
- typescript - 计算属性“解析错误:'}' 预计在”
- ionic4 - 如何在ionic4中加载带有弹出框的页面
- typescript - 带数字的联合类型 | 这是不能接受的吗?