首页 > 解决方案 > 在 python 中使用 Mapreduce 执行特定任务

问题描述

我是 Mapreduce 的新手,并试图解决一个问题,我需要在每个评论中找到平均单词数。以下是我在 csv 中的数据集:- 在此处输入图像描述

所以基本上文本列是我在这里的评论,我需要找到其中的平均单词数。我将如何使用 MapReduce (mrjob) 来解决这个问题。

这是我正在使用的示例代码:

from mrjob.job import MRJob

class MRWordFrequencyCount(MRJob):

    def mapper(self, _, text):
        yield "chars", len(text)
        yield "words", len(text.split())
        yield "lines", 1

    def reducer(self, key, values):
        yield key, sum(values)


if __name__ == '__main__':
    MRWordFrequencyCount.run()

不确定我的方法是否正确。

标签: pythonnlpmapreducemean

解决方案


推荐阅读