首页 > 解决方案 > 如何在 AWS 中使用 S3 数据运行 python 脚本

问题描述

我在 S3 中有一个 CSV 文件。我想使用 S3 中存在的数据运行 python 脚本。S3 文件将每周更改一次。我需要将输入参数传递给我的 python 脚本,它将我的 S3 文件加载到 Pandas 中并进行一些计算以返回结果。

目前,我正在我的服务器中使用 Boto3 为每个输入参数加载这个 S3 文件。这个过程需要更多时间才能返回结果,我的 nginx 返回 504 网关超时。

我期待一些 AWS 服务可以在云中完成。谁能指出我适合在这里使用 AWS 服务的正确方向

标签: python-3.xamazon-s3aws-lambdajob-scheduling

解决方案


你有几个选择:

  1. 使用 AWS Lambda,但 Lambda 具有有限的本地存储 (500mb) 和内存 (3gb),运行时间为 15。
  2. 既然您提到了 Pandas,我建议使用具有以下能力的 AWS Glue:
    • 检测新文件
    • 大内存,支持 CPU
    • 可视化数据流
    • 支持 Spark DF
    • 能够从 CSV 文件中查询数据
    • 连接到不同的数据库引擎。

我们目前将 AWS Glue 用于我们的数据解析器流程


推荐阅读