首页 > 解决方案 > 如何在 RDD(pyspark)中生成每个条目的不同数据类型组件以计算不同的

问题描述

我有一个 RDD,它有两个由 TAB 分隔的组件。第一个是 a node id,第二个是一个字典,其中节点 id 作为键作为字符串,值作为权重。我需要计算图中的不同节点。

["2\t{'3': 1}",
 "3\t{'2': 2}",
 "4\t{'1': 1, '2': 1}",
 "5\t{'4': 3, '2': 1, '6': 1}",
 "6\t{'2': 1, '5': 2}",
 "7\t{'2': 1, '5': 1}",
 "8\t{'2': 1, '5': 1}",
 "9\t{'2': 1, '5': 1}",
 "10\t{'5': 1}",
 "11\t{'5': 2}"]

我希望计数 11 个不同的节点作为我的计数,其中11是输出中的不同值,按行,如下:

2, '3'
3, '2'
4, '1', '2'
5, '4', '2', '6'
6, '2', '5'
7, '2', '5'
8, '2', '5'
9, '2', '5'
10, '5'
11, '5'

标签: pythonapache-sparkrdd

解决方案


推荐阅读