python - 如何在 RDD(pyspark)中生成每个条目的不同数据类型组件以计算不同的
问题描述
我有一个 RDD,它有两个由 TAB 分隔的组件。第一个是 a node id
,第二个是一个字典,其中节点 id 作为键作为字符串,值作为权重。我需要计算图中的不同节点。
["2\t{'3': 1}",
"3\t{'2': 2}",
"4\t{'1': 1, '2': 1}",
"5\t{'4': 3, '2': 1, '6': 1}",
"6\t{'2': 1, '5': 2}",
"7\t{'2': 1, '5': 1}",
"8\t{'2': 1, '5': 1}",
"9\t{'2': 1, '5': 1}",
"10\t{'5': 1}",
"11\t{'5': 2}"]
我希望计数 11 个不同的节点作为我的计数,其中11
是输出中的不同值,按行,如下:
2, '3'
3, '2'
4, '1', '2'
5, '4', '2', '6'
6, '2', '5'
7, '2', '5'
8, '2', '5'
9, '2', '5'
10, '5'
11, '5'
解决方案
推荐阅读
- java - MongoDB - Spring Data - 在保存条件时增加字段
- json - 没有与键 CodingKeys 关联的值
- python - Python 的多项朴素贝叶斯从零开始
- javascript - 有没有办法使用 javascript 从 Google Docs、Slides 等收集事件?
- flutter - 将 API(模型类)传递给小部件
- c++ - 性能损失:非规范化数字与分支错误预测
- flutter - 如何在同一级别上对齐 TextField 和 Text
- r - 读取列之间具有不同数量空格的数据框
- javascript - Node.js 生成参数导致 git update-index 失败
- complex-event-processing - 具有多次出现条件的 Siddhi 查询