首页 > 解决方案 > 转换文件后加载 DynamoDB 数据。任何 AWS 服务,例如 GCP Dataflow/Apache Beam?

问题描述

AWS 新手。我需要创建一个每日批处理管道

  1. 阅读 6-10 个 1GB+ CSV 文件。(每个文件都是从 SQL 数据库中提取的表。)
  2. 使用一些逻辑转换每个文件并连接所有文件以为每个 id 创建一个项目。
  3. 使用 upsert 逻辑将此连接数据加载到单个 DynamoDB 表中。

我开始使用的当前方法是:我们有一个可用于此类任务的 EC2。所以我正在编写一个python代码来(1)读取所有CSV,(2)转换为非规范化的JSON文件,(3)使用boto3导入Dynamodb

我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本处理 10GB 数据可以吗?如果文件大小变成 10 倍,我会面临缩放问题吗?我过去只使用过 GCP,在这种情况下,我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否存在等价物?如果有人可以提供一些想法,那就太好了。谢谢你的时间。

标签: python-3.xamazon-dynamodbetlgoogle-cloud-dataflowdata-pipeline

解决方案


与 Google Cloud Dataflow 等效的 AWS 是AWS Glue。文档不清楚,但Glue 确实会写入 DynamoDB。


推荐阅读