python - 在 python 中使用 Mapreduce 执行特定任务
问题描述
我是 Mapreduce 的新手,并试图解决一个问题,我需要在每个评论中找到平均单词数。以下是我在 csv 中的数据集:-
所以基本上文本列是我在这里的评论,我需要找到其中的平均单词数。我将如何使用 MapReduce (mrjob) 来解决这个问题。
这是我正在使用的示例代码:
from mrjob.job import MRJob
class MRWordFrequencyCount(MRJob):
def mapper(self, _, text):
yield "chars", len(text)
yield "words", len(text.split())
yield "lines", 1
def reducer(self, key, values):
yield key, sum(values)
if __name__ == '__main__':
MRWordFrequencyCount.run()
不确定我的方法是否正确。
解决方案
推荐阅读
- java - 为什么我的代码不断抛出 StringIndexOutOfBoundsException?
- android - 如何在不将其置于前面的情况下启动其他应用程序的活动?
- sql - 单独的 PostgreSQL 分区加入
- scala - Dotty 无法推断具有抽象类型的类型参数特征的通用 Scala 函数的结果类型
- javascript - 裁剪后的图像显示有一个奇怪的 1px 黑色边框
- batch-file - 访问被拒绝在 cmd 中创建文本文件和奇怪的“如果存在”问题
- python - cv2.VideoCapture 无法读取远程视频文件
- python - 通过 for 循环创建内容时检查 csv 文件
- c - 为另一个架构重建 linux 内核模块
- spring - 如何模拟 jdbcTemplate.getJdbcTemplate().execute(); 方法?