首页 > 技术文章 > yarn 集群资源为0 问题cluster resource is <memory:0, vCores:0>

huangguoming 2022-01-08 22:09 原文

测试集群上一个任务一直夯住,执行了几个小时还没有结束。

我对问题进行了排查

 查看yarn页面发现任务被接受了,但没有被分配资源

查看rm日志,也是集群没有任何资源

 

 Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty

  

 怀疑nn没有启动注册成功

查看nn启动着,日志显示也注册成了

再查看rm日志,发现nn被标记为不健康移除了

 

 最后在yarn web页面的nn的health-report发现,是nn的存储空间不足达到阈值导致的

 

 后来排查发现是其他部门的实习同志误操作短时间在测试集群nn节点写入大量数据,占用了额外的存储空间导致

推荐阅读