hadoop - AWS EMR - 从 S3 到核心和任务节点的数据流
问题描述
有人可以指向一个 URL,该 URL 解释了在 AWS EMR 上执行的作业中数据如何从 S3 流向内存再到 HDFS 再到磁盘空间?我了解 Core 和 Task 节点所扮演的角色,但不清楚数据将如何流动。例如; 如果我加入 Hive 中的两个表,其数据位于 S3 中。数据会先到 HDFS,然后再到内存,反之亦然,什么时候使用任务节点上的磁盘空间?数据如何从主节点或核心节点流向任务节点?
我问这个问题的原因是,有时我的作业失败并显示消息“datanodes are bad”,主要是由于 HDFS 已满,或者节点因为磁盘空间已满而变得不健康。
所以我试图弄清楚每个组件所扮演的角色。当集群在本地时,我从来没有遇到过这样的问题,所以现在我需要更好地配置我的 AWS 集群。
谢谢
解决方案
推荐阅读
- firebase - Flutter中的Firebase clod消息传递:单击通知时打开特定路由(获取上下文)
- image-processing - 如何使用 Python 显示数字高程模型 (DEM) (.raw)?
- django - 遍历查询集并比较查询集
- c# - 实例化预制件的问题。ArgumentException:已添加具有相同键的项目
- iis - 无法在 Windows 服务器上安装 Web 部署,安装程序找不到“Visual Studio 2015 更新 2”和“Visual Studio 2015”
- twitter - 如何使用 cefsharp 点赞和转发?
- java - 从数据库返回列表
- python - 计算步数达到 0 的函数
- zurb-foundation - 有没有办法在页面顶部有一个带有标题图像的顶栏?
- tsql - 如何在 SQL Server 中加入客户记录以显示缺少的交易类型