首页 > 解决方案 > AWS EMR - 从 S3 到核心和任务节点的数据流

问题描述

有人可以指向一个 URL,该 URL 解释了在 AWS EMR 上执行的作业中数据如何从 S3 流向内存再到 HDFS 再到磁盘空间?我了解 Core 和 Task 节点所扮演的角色,但不清楚数据将如何流动。例如; 如果我加入 Hive 中的两个表,其数据位于 S3 中。数据会先到 HDFS,然后再到内存,反之亦然,什么时候使用任务节点上的磁盘空间?数据如何从主节点或核心节点流向任务节点?

我问这个问题的原因是,有时我的作业失败并显示消息“datanodes are bad”,主要是由于 HDFS 已满,或者节点因为磁盘空间已满而变得不健康。

所以我试图弄清楚每个组件所扮演的角色。当集群在本地时,我从来没有遇到过这样的问题,所以现在我需要更好地配置我的 AWS 集群。

谢谢

标签: hadoopamazon-s3hdfsemramazon-emr

解决方案


推荐阅读