首页 > 解决方案 > Cloudera NODE_MANAGER_UNEXPECTED_EXITS 每小时

问题描述

我有一个在 Azure 中运行的 cloudera 5.x 集群。一切运行良好,然后几天前我开始每小时通过电子邮件收到“NODE_MANAGER_UNEXPECTED_EXITS”健康通知。

这似乎发生在每小时的 43 分钟。

我遇到的大多数表单都提示了 outOfMemory 错误——尽管我在日志文件中没有看到任何这些错误。为了更好地衡量,我尝试增加 NodeManager 的 java 头空间内存分配,但这并没有解决问题。

我已经停止了集群上的所有作业——它基本上处于空闲状态,但我每小时都会收到这些警报。

电子邮件中的健康警报示例:

NODE_MANAGER_UNEXPECTED_EXITS   Role health test bad    Critical    The health test result for NODE_MANAGER_UNEXPECTED_EXITS has become bad: This role encountered 1 unexpected exit(s) in the previous 5 minute(s). Critical threshold: any.

任何帮助是极大的赞赏

标签: hadoopcloudera

解决方案


推荐阅读