python-3.x - 如何在 AWS 中使用 S3 数据运行 python 脚本
问题描述
我在 S3 中有一个 CSV 文件。我想使用 S3 中存在的数据运行 python 脚本。S3 文件将每周更改一次。我需要将输入参数传递给我的 python 脚本,它将我的 S3 文件加载到 Pandas 中并进行一些计算以返回结果。
目前,我正在我的服务器中使用 Boto3 为每个输入参数加载这个 S3 文件。这个过程需要更多时间才能返回结果,我的 nginx 返回 504 网关超时。
我期待一些 AWS 服务可以在云中完成。谁能指出我适合在这里使用 AWS 服务的正确方向
解决方案
你有几个选择:
- 使用 AWS Lambda,但 Lambda 具有有限的本地存储 (500mb) 和内存 (3gb),运行时间为 15。
- 既然您提到了 Pandas,我建议使用具有以下能力的 AWS Glue:
- 检测新文件
- 大内存,支持 CPU
- 可视化数据流
- 支持 Spark DF
- 能够从 CSV 文件中查询数据
- 连接到不同的数据库引擎。
我们目前将 AWS Glue 用于我们的数据解析器流程
推荐阅读
- python - 你如何得到一个矩形绘图来延长你在pygame中输入的更多内容?
- linux - 在 For 循环中将列附加到 CSV
- java - Spring MongoDB 填充引用
- r - R:如何根据每个输入列的相同公式输出一列?
- python - 如何检查熊猫数据框列中的子字符串是否存在于同一数据框中另一列的子字符串中?
- docusignapi - DocuSign 收件箱为空,在收件箱中接收确认的设置
- angular - string.replace 在多个属性上的重构思路
- github - 使用个人访问令牌将 Gradle 上的脚本应用于私有(企业)github 存储库
- asp.net-core - EF Core 何时自动创建/更新导航属性?
- zsh - ZSH如何在符号链接目录中获取非符号链接文件