首页 > 解决方案 > groupby 和聚合在 pyspark 中的 RDD 对象中的多个元素

问题描述

这是我的 RDD 对象的前三个元素:

[('E7750A37CAB07D0DFF0AF7E3573AC141',
  0.03333333333333333,
  0.44,
  1.0,
  0.0,
  0.0,
  3.5),
 ('778C92B26AE78A9EBDF96B49C67E4007',
  0.03333333333333333,
  0.71,
  1.0,
  0.0,
  1.0,
  4.0),
 ('BE317B986700F63C43438482792C8654',
  0.03333333333333333,
  0.48,
  1.0,
  0.0,
  0.0,
  4.0)]

我想使用字符串元素(例如'BE317B986700F63C43438482792C8654')进行分组并添加其余元素。我是 pyspark 的新手。

标签: python-3.xapache-sparkpyspark

解决方案


推荐阅读