amazon-s3 - 以 S3 文件存在为条件的顺序脚本
问题描述
我有三个 python 脚本。这些应该是按顺序执行的,但是在不同的环境中。
- script1:使用 AWS EMR 集群生成训练和测试数据集并将其保存在 S3 上。
- 脚本 2:使用训练数据训练机器学习模型,并将训练后的模型保存在 S3 上。(在 AWS GPU 实例上执行)
- script3:根据测试数据和训练好的模型运行评估,并将结果保存在 S3 上。(在 AWS GPU 实例上执行)
我想自动运行所有这些脚本,而不是一一执行。我的问题是:
- 是否有处理 S3 文件存在条件的良好做法?(错误容忍等)
- 如何触发启动 GPU 实例和 EMR 集群?
有没有好的方法或工具来处理这种过程?
解决方案
看看https://docs.aws.amazon.com/AmazonS3/latest/dev/NotificationHowTo.html
您可以配置存储桶上发生事件时的通知,例如创建对象时。
您可以将此通知直接附加到 AWS lambda 函数,如果将使用正确的角色设置该函数,则可以创建 EMR 集群和 AWS 开发工具包可访问的所有其他资源。
推荐阅读
- excel - 使用vba登录
- excel - 是否有条件因素来检查带有字母的文件名然后执行代码?
- python - 如何将多列转置为多行但使用 Pandas 保留主键
- reactjs - reactjs中所有页面的元标记
- angular - 无法使用 localStorage 或 sessionStorage 从内部订阅同步到外部订阅
- autohotkey - LButton启动时如何停止AHK循环
- apache - 如何在服务器代码响应客户端时执行 Apache 重定向
- python - 使用 pandas 或 numpy 将不规则列数据读入 python 3.X
- java - 是否有不可序列化的实体字段类型?
- svn - 如何在 CLion 中停止或禁用更改列表“更新...”?