amazon-web-services - 需要了解如何设置 map reduce 类型函数以使用 AWS 资源从 CSV 文件导入 50K 联系人
问题描述
我需要在我们的数据库中导入 50K(此数字更改)记录,将业务逻辑应用于每条记录(或大量记录),我计划通过将记录集分解为 500 条记录的多个块并向 hornetq 发送消息来实现它MDB 处理记录块的队列。该解决方案通过拥有 30 个线程的 MDB 池帮助我将进程分布在多个进程中,而且由于我使用持久队列,我的消息被持久化,因此在出现故障时整个进程不会受到影响。首先,我很想知道这是否是一种理想的方法,其次,由于我们完全在 AWS 中,AWS 中是否有旨在处理此类应用程序的解决方案(或组合)。
解决方案
如果您对 Map Reduce 如此专一,请继续使用 AWS Elastic Map Reduce (EMR) 来执行您的 Map Reduce 活动,并将您的自定义处理和源存储在 S3 中或从任何其他源中提取。
您必须管理基础架构,它不是托管服务
或者,您可以使用 AWS Glue ETL 作业使用 Spark 执行相同的操作。这是一项托管 ETL 服务,可让您从预先生成的 spark 模板开始。
要在 Glue 与 EMR 之间进行选择,请阅读有关 Spark 与 Map Reduce 的更多信息并自行决定。
希望这可以帮助!!
推荐阅读
- c++ - 调试器对 ifstream 数据的奇怪输出
- docker - Docker buildkit 缓存大小限制
- javascript - 将字符串解析为时间格式 JavaScript
- angular - 使用 IP 访问 Angular 应用程序
- c# - 什么是最抽象的 JSON 可序列化 C# 数据结构?
- apache-kafka - 如何通过 Debezium Connect 反序列化来自 Kafka 消息流的几何字段?
- blazor - 何时在 Blazor 中拥有多个根组件?
- python - 如何在破折号复选框的标签中放置超链接
- java - 什么可能导致 Yarn NodeManager 中看似随机的 NoSuchMethodError
- xaml - 如何拉伸水平 ListVIew UWP XAML 的项目?