python-3.x - 转换文件后加载 DynamoDB 数据。任何 AWS 服务,例如 GCP Dataflow/Apache Beam?
问题描述
AWS 新手。我需要创建一个每日批处理管道
- 阅读 6-10 个 1GB+ CSV 文件。(每个文件都是从 SQL 数据库中提取的表。)
- 使用一些逻辑转换每个文件并连接所有文件以为每个 id 创建一个项目。
- 使用 upsert 逻辑将此连接数据加载到单个 DynamoDB 表中。
我开始使用的当前方法是:我们有一个可用于此类任务的 EC2。所以我正在编写一个python代码来(1)读取所有CSV,(2)转换为非规范化的JSON文件,(3)使用boto3导入Dynamodb
我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本处理 10GB 数据可以吗?如果文件大小变成 10 倍,我会面临缩放问题吗?我过去只使用过 GCP,在这种情况下,我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否存在等价物?如果有人可以提供一些想法,那就太好了。谢谢你的时间。
解决方案
与 Google Cloud Dataflow 等效的 AWS 是AWS Glue。文档不清楚,但Glue 确实会写入 DynamoDB。
推荐阅读
- c# - 标题和 DATE.NOW 后的首字母缩略词
- java - 如何让计数器在android studio中递增
- python - random.seed AttributeError:模块“随机”没有属性“randrange”
- python - 如何集成 2 个 keras 模型输出?
- dictionary - 在地图中插入对
- python - beautifulsoup 得到一个 AttributeError:'NoneType' 对象没有来自 div 子文本的属性 'text'
- python - 具有softmax似然的多类分类
- php - 关系中的空值属于laravel?
- python-3.x - Python解释器与IDLE内存分配
- c# - 如何转换一些 unicode-bidi?