首页 > 解决方案 > 在 RDD 中拆分一列

问题描述

嗨,我正在尝试在 spark RDD 中拆分一列。

数据集样本:

推特数据

在这里,我想将月份列拆分为月份和年份:示例:

2019 10

2009 11

并进一步计算一年内的所有推文。(我知道如何在这里使用reduceByKey(+))

如何拆分 Spark RDD 中的列?我不想使用数据框。

标签: scalaapache-spark-sqlrdd

解决方案


您可以尝试如下

val rdd = oldRdd.map({case(tokenType,month,count,hashTagName) => (tokenType,month.substring(0,4),month.substring(2,6),count,hashTagName)})

推荐阅读