java - 计算最终地图中的总行数减少hadoop中的输出
问题描述
目前我的 num reduce 任务设置为job.setNumReduceTasks(100);
所以我的最终输出目录在 S3 中,如下所示
/output/part-r-00000.gz
/output/part-r-00001.gz
... etc
为了计算所有行数,我必须手动下载并解压缩所有文件并浏览每个文件以计算总行数。
在 hadoop 上下文中某处是否有总行度量存储?
解决方案
Map Reduce 应用程序日志存储 map 和 reduce 任务的计数器。对于所有减速器,如果您查看作业日志(准确地说是计数器),则“减少输出记录”之类的内容应该为您提供所需的信息。然而,这是 HDP 平台,其中 RM UI 在作业计数器部分包含所有信息。
推荐阅读
- css - 使用 JQuery UI 对话框小部件时如何遵守内容安全策略?
- python - 使用字典对 O(n) 中的数组进行排序?
- plot - plotnine issu 使用 stat_smooth 和 geom_path
- webpack - 为什么我的 webpack 构建会检测到这么多孤儿模块?
- c# - 图表控件行为怪异
- javascript - 如何让标题缩小并保持缩小直到回到顶部?
- java - Spring Security:无论版本和强度值是否更改,BCryptPasswordEncoder 都可以正常工作
- css - 如何在 Vue 中基于 CSS Grid 创建一个完全动态的表格构建器组件?
- azure-active-directory - Azure AD OAuth 终结点的性能指标是否可用?
- ms-access - Access Userform:如何最好地显示查找表中的字段?