python-3.x - 转换文件后加载 DynamoDB 数据。任何 AWS 服务，例如 GCP Dataflow/Apache Beam？

问题描述

AWS 新手。我需要创建一个每日批处理管道

阅读 6-10 个 1GB+ CSV 文件。（每个文件都是从 SQL 数据库中提取的表。）
使用一些逻辑转换每个文件并连接所有文件以为每个 id 创建一个项目。
使用 upsert 逻辑将此连接数据加载到单个 DynamoDB 表中。

我开始使用的当前方法是：我们有一个可用于此类任务的 EC2。所以我正在编写一个python代码来（1）读取所有CSV，（2）转换为非规范化的JSON文件，（3）使用boto3导入Dynamodb

我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本处理 10GB 数据可以吗？如果文件大小变成 10 倍，我会面临缩放问题吗？我过去只使用过 GCP，在这种情况下，我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否存在等价物？如果有人可以提供一些想法，那就太好了。谢谢你的时间。

标签： python-3.xamazon-dynamodbetlgoogle-cloud-dataflowdata-pipeline

python-3.x - 转换文件后加载 DynamoDB 数据。任何 AWS 服务，例如 GCP Dataflow/Apache Beam？

问题描述

解决方案

推荐阅读