首页 > 解决方案 > 将函数应用于具有列表作为 Pyspark 中的值的 RDD?

问题描述

提前感谢您提供的任何帮助。

我是 Pyspark 的新手,我知道 RDD 可以成为处理大型数据集的强大方法。

在这个问题中,我被要求创建一个函数并将其应用于列值,然后提供前 10 个频率。我只是对应用于列的特定方法以及之后如何 groupByKey 感到困惑(我假设)。

这是数据集: 在此处输入图像描述

这是问题

迅速的

我的逻辑是,将数据集转换为 RDD,将预处理函数应用于每个,然后我会按键分组吗?

再次感谢!

标签: pyspark

解决方案


推荐阅读