python - Pyspark:在列和索引上排名()?
问题描述
我在使用窗口功能时遇到了一些麻烦。我真的找不到任何可以涵盖顺序很重要的场景的示例。我想要做的是在 ColumnA 上排名,考虑到 SortOrder(及其第一次出现)。所以所有的 B 都会得到值 1、A 2 和 C 3。我可以用 rank 函数来实现它吗?我不能简单地按这两列排序。
example = example.withColumn("rank", F.rank().over(Window.orderBy('ColumnA')))
这个也行不通,因为订单会丢失。
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
import pyspark.sql.functions as F
from pyspark.sql.window import Window
data = [("B", "BA", 1),
("B", "BB", 2),
("B", "BC", 3),
("A", "AA", 4),
("A", "AB", 5),
("C", "CA", 6),
("A", "AC", 7)]
cols = ['ColumnA', 'ColumnB', 'SortOrder']
schema = StructType([StructField('ColumnA', StringType(), True),
StructField('ColumnB', StringType(), True),
StructField('SortOrder', IntegerType(), True)])
rdd = sc.parallelize(data)
example = spark.createDataFrame(rdd, schema)
?
example = example.withColumn("rank", F.rank().over(Window.orderBy('SortOrder', 'ColumnA')))
解决方案
获取每个 ColumnA 值的最小 SortOrder,然后获取排名,并将其连接回原始数据帧。
example2 = example.join(
example.groupBy('ColumnA')
.min('SortOrder')
.select('ColumnA',
F.rank().over(Window.orderBy('min(SortOrder)')).alias('rank')
),
on = 'ColumnA'
).orderBy('SortOrder')
example2.show()
+-------+-------+---------+----+
|ColumnA|ColumnB|SortOrder|rank|
+-------+-------+---------+----+
| B| BA| 1| 1|
| B| BB| 2| 1|
| B| BC| 3| 1|
| A| AA| 4| 2|
| A| AB| 5| 2|
| C| CA| 6| 3|
| A| AC| 7| 2|
+-------+-------+---------+----+
推荐阅读
- chart.js - 如何更改charts.js中主y轴标签的方向?
- css - 在省略号路径上使用 @keyframes 为 svg 制作动画
- reactjs - 更新输入内的反应状态
- php - 我的 css 样式自定义对 laravel 部署没有影响
- javascript - 使用将数据传递到 URL 的 get 方法
- azure - 从 Azure DevOps Pipeline 调用 Bitbucket 2.0 API
- visual-studio - EnableDefaultCompileItems 问题。编译包括在构建时添加的项目
- reactjs - React 道具不会在组件安装上呈现
- python - Discord Python 重写问题 - asyncio.sleep()
- wordpress - wp_schedule_single_event 从不执行