hadoop - master在datanode上运行是否正确?
问题描述
我正在使用使用纱线配置文件构建的 giraph-1.3。开始时,我在 ec2 集群上配置了 1 个名称节点和 2 个数据节点。我的应用程序正常工作,因为我在日志(和输出目录)中看到了预期的输出。我使用“-w 2”参数启动了 giraph,因为我有两个数据节点。
在 datanode1 的用户日志中,我找到了第一个工作人员的日志。
在 datanode2 的 userlogs 中,我也找到了第二个 worker 的日志和 master 的日志。
我希望在namenode 中找到master 的日志,即我希望master 在namenode 上运行。这样对吗?
也许我必须配置另一个数据节点,然后我会在这个新数据节点上找到主日志?
解决方案
YARN 总是为每个作业创建一个 Application Master。
您可以根据需要启动任意数量的“worker”,具体取决于您的工作负载,但由于您只有 2 个数据节点,因此您只能拥有 2 个 NodeManager 以实现最大并行度
NodeManager 有一个最大的可用内存空间,并且用于作业任务的 YARN 容器获取其中的一个子部分以便进行处理。
推荐阅读
- java - Spring JPA 的多租户
- python - SQLITE3:更新数据库时出错
- hdf5 - GDAL:库未加载 libhdf5.100.dylib
- apache-camel - 如何使用 apache camel 在 DynamoDb 中将地图作为属性值?
- python - 在我的 base.html 上显示用户图像 ({{ userprofile.image.url }})
- java - 从带有流的枚举中收集值不起作用
- three.js - 如何在 aframe 中使用 web url 加载 obj-model
- r - 如何将绘图导出到 HTML 页面
- python-3.x - Colabs 文件传输不驱动
- css - 将变量设置为具有相同的属性值