amazon-web-services - 与具有硬盘存储的服务器相比,AWS EMR 在 S3 上的性能
问题描述
我们有大约 10 TB 来自客户的数据,这些数据必须使用 hive 加载和查询,并创建必须再次查询多次的聚合表。
我打算AWS S3
在一个存储桶中存储 10 TB 数据并使用EMR
.
这是一种可行的方法还是性能会很差?
可以使用哪些替代方案来加快查询速度?
解决方案
是的,这是可行的。这是一个非常常见的用例(使用 S3 与补充 HDFS)。提供关于性能的明确声明的挑战在于“它取决于”。我认为 S3 的每美元性能无疑更好,但直接的性能取决于您如何组织数据以及您与该数据的交互方式,本地数据可能会更好(正如您所期望的那样)。
以下是有关此主题的一些相关文章:
在 S3 中优化对数据的访问时要考虑的事项:
推荐阅读
- c# - 以编程方式禁用/启用 Windows 10 设备
- java - 无法推断 Java 中的功能接口类型错误
- c - 当 linux 在使用 ptrace 挂接 recv 时发送 ack
- python - 不确定为什么 tkinter 按钮没有正确调整大小
- javascript - JS中对象的锁定行为?
- java - Java XML Parser 返回同一级别的所有标签
- wso2 - wso2is 类似声明的角色
- docker - 使用 ArangoDB Docker 时无法通过 ArangoDB Web 界面切换到其他数据库
- python - 将一系列字典转换为 DataFrame 的最有效方法
- azure - 将文件从 Azure Blob 存储下载到 Azure Linux VM