scala - 在 RDD 中拆分一列
问题描述
嗨,我正在尝试在 spark RDD 中拆分一列。
数据集样本:
在这里,我想将月份列拆分为月份和年份:示例:
2019 10
2009 11
并进一步计算一年内的所有推文。(我知道如何在这里使用reduceByKey(+))
如何拆分 Spark RDD 中的列?我不想使用数据框。
解决方案
您可以尝试如下
val rdd = oldRdd.map({case(tokenType,month,count,hashTagName) => (tokenType,month.substring(0,4),month.substring(2,6),count,hashTagName)})
推荐阅读
- drools - 具有自定义样式和自定义背景图像的 Docker 图像 (jboss/jbpm-server-full:latest)
- java - ["abcd"] 和 [["abcd"]] 是否相同?
- java - 如何为每个脚本使用 selenium 脚本代码?
- javascript - 内部断言失败 - 将文档添加到集合时 React JS 中的 firebase 错误
- html - 无法在 React Bootstrap 上提供颜色背景
- electron - 渲染网站时使用电子捕获屏幕
- html - Bootstrap css 文件中的“footer”类在哪里?
- firebase - FirebaseMessagingError:提供的注册令牌无效
- javascript - DOM 操作:如何在 javascript DOM 中动态地从 json 数据列表中删除元素
- php - PHP在没有JS的情况下将数据发送到模态