首页 > 解决方案 > 计算最终地图中的总行数减少hadoop中的输出

问题描述

目前我的 num reduce 任务设置为job.setNumReduceTasks(100);

所以我的最终输出目录在 S3 中,如下所示

/output/part-r-00000.gz
/output/part-r-00001.gz
... etc

为了计算所有行数,我必须手动下载并解压缩所有文件并浏览每个文件以计算总行数。

在 hadoop 上下文中某处是否有总行度量存储?

标签: javahadoopmapreducehadoop2

解决方案


Map Reduce 应用程序日志存储 map 和 reduce 任务的计数器。对于所有减速器,如果您查看作业日志(准确地说是计数器),则“减少输出记录”之类的内容应该为您提供所需的信息。然而,这是 HDP 平台,其中 RM UI 在作业计数器部分包含所有信息。


推荐阅读