python-3.x - groupby 和聚合在 pyspark 中的 RDD 对象中的多个元素
问题描述
这是我的 RDD 对象的前三个元素:
[('E7750A37CAB07D0DFF0AF7E3573AC141',
0.03333333333333333,
0.44,
1.0,
0.0,
0.0,
3.5),
('778C92B26AE78A9EBDF96B49C67E4007',
0.03333333333333333,
0.71,
1.0,
0.0,
1.0,
4.0),
('BE317B986700F63C43438482792C8654',
0.03333333333333333,
0.48,
1.0,
0.0,
0.0,
4.0)]
我想使用字符串元素(例如'BE317B986700F63C43438482792C8654')进行分组并添加其余元素。我是 pyspark 的新手。
解决方案
推荐阅读
- python - “'连接中止。',RemoteDisconnected”或没有使用 urllib3 和 Django 获取任何信息
- sql - 按表分组计算每周百分比
- android - 根据 Xamarin.Forms 中的设备大小调整行为的正确方法?
- apache-kafka - Kafka Streams聚合加法器运算符问题
- java - JVM 堆内存分配
- java - 如何使用带有二进制对象的 ignite 数据流传输器,数据未加载到集群
- elasticsearch - 不可用部署副本的值为,0.015,一个浮点数
- javascript - 如何将 D3 时间尺度从 V3 转换为 V4?
- python - 如何检查字符串中是否有特定字符(在 Python 中)
- python - 如何在 PyQt5 中的现有主窗口位置(不是屏幕中心)放置新窗口?