首页 > 解决方案 > 与具有硬盘存储的服务器相比,AWS EMR 在 S3 上的性能

问题描述

我们有大约 10 TB 来自客户的数据,这些数据必须使用 hive 加载和查询,并创建必须再次查询多次的聚合表。

我打算AWS S3 在一个存储桶中存储 10 TB 数据并使用EMR.

这是一种可行的方法还是性能会很差?

可以使用哪些替代方案来加快查询速度?

标签: amazon-web-servicesamazon-s3hiveamazon-emr

解决方案


是的,这是可行的。这是一个非常常见的用例(使用 S3 与补充 HDFS)。提供关于性能的明确声明的挑战在于“它取决于”。我认为 S3 的每美元性能无疑更好,但直接的性能取决于您如何组织数据以及您与该数据的交互方式,本地数据可能会更好(正如您所期望的那样)。

以下是有关此主题的一些相关文章:

在 S3 中优化对数据的访问时要考虑的事项:


推荐阅读