首页 > 解决方案 > 需要了解如何设置 map reduce 类型函数以使用 AWS 资源从 CSV 文件导入 50K 联系人

问题描述

我需要在我们的数据库中导入 50K(此数字更改)记录,将业务逻辑应用于每条记录(或大量记录),我计划通过将记录集分解为 500 条记录的多个块并向 hornetq 发送消息来实现它MDB 处理记录块的队列。该解决方案通过拥有 30 个线程的 MDB 池帮助我将进程分布在多个进程中,而且由于我使用持久队列,我的消息被持久化,因此在出现故障时整个进程不会受到影响。首先,我很想知道这是否是一种理想的方法,其次,由于我们完全在 AWS 中,AWS 中是否有旨在处理此类应用程序的解决方案(或组合)。

标签: amazon-web-servicesparallel-processingaws-lambdaamazon-emr

解决方案


如果您对 Map Reduce 如此专一,请继续使用 AWS Elastic Map Reduce (EMR) 来执行您的 Map Reduce 活动,并将您的自定义处理和源存储在 S3 中或从任何其他源中提取。

您必须管理基础架构,它不是托管服务

或者,您可以使用 AWS Glue ETL 作业使用 Spark 执行相同的操作。这是一项托管 ETL 服务,可让您从预先生成的 spark 模板开始。

要在 Glue 与 EMR 之间进行选择,请阅读有关 Spark 与 Map Reduce 的更多信息并自行决定。

希望这可以帮助!!


推荐阅读