首页 > 解决方案 > 使用 accumulo 进行大规模摄取

问题描述

使用 accumulo 1.7.4 和 cloudera HDFS 在 AWS 上进行海量数据摄取(多 TB 数据摄取)。

我没有看到大量的参考资料,但是使用具有更大实例带宽和内存/cpu 和 HD 空间的更少节点以及预拆分表,或者使用更多具有更小内存/cpu 和更小的 HD 空间的节点是否会更好地提高速度? ?

我最初使用 EBS 卷进行存储,发现使用本地 NVME 存储然后在操作完成后将数据快照到 EBS 更有利,所以我认为我不会遇到任何与 I/O 相关的边界……</p>

标签: amazon-web-serviceshdfsclouderaaccumulo

解决方案


推荐阅读