首页 > 解决方案 > 在hadoop中找到最大值

问题描述

我有以下任务:

存储文件的应用程序,使用户能够添加和删除文件。当发生此类事件时,我将附加到 hdfs 中的文件,添加文件时的以下记录:

userid image-uuid size_in_bytes

以及删除文件时的以下内容

-userid image-uuid size_in_bytes

在 reducer 中计算平均值时,我必须减去已删除文件的大小并减少总数以找到没有该文件的平均值。

删除是罕见的事件。

我如何计算整个数据集的平均和最大大小?

标签: hadoopmapreduce

解决方案


我刚刚发现我还有一个 hadoop 作业,可以找到每个用户 ID 的最大值。所以我将遵循分而治之的方法。首先找到每个用户的最大值,然后在输出上运行一个较小的作业以找到整体最大值。


推荐阅读