pyspark - 将函数应用于具有列表作为 Pyspark 中的值的 RDD?
问题描述
提前感谢您提供的任何帮助。
我是 Pyspark 的新手,我知道 RDD 可以成为处理大型数据集的强大方法。
在这个问题中,我被要求创建一个函数并将其应用于列值,然后提供前 10 个频率。我只是对应用于列的特定方法以及之后如何 groupByKey 感到困惑(我假设)。
这是数据集:
这是问题
我的逻辑是,将数据集转换为 RDD,将预处理函数应用于每个,然后我会按键分组吗?
再次感谢!
解决方案
推荐阅读
- mysql - Mysql 将 meta_key 捕获为列
- powerbi - DAX 公式检查两列中的值
- python-3.x - 在 Tkinter GUI 上嵌入 matplotlib 图
- c++ - 为类提供自己的数据
- apache-spark - 如何在每个 Worker 中的 Spark Dataframe 中加载数据,以防止将大量数据加载到 Master 节点
- python - Pandas Groupby + Agg 上架速度非常慢
- tensorflow - Keras MaxPooling2D 中的 None 步幅是否根据过滤器大小动态设置?
- c++ - 嵌套循环边界
- .net-core - 我们可以使用 .Net 中的 FFMPEG 工具在生成的视频上添加背景音乐和帧率吗?
- python - Getting ValueError rending my Django CreateView