python - 计数与季度聚合不同
问题描述
我有一些日常数据存储在 Spark 数据框中,我汇总这些数据以获得计数。我这样做是这样的:
start = '2018-11-01'
end = '2021-02-19'
t1 = (
spark.table('schema.t1')
.where(sf.col('yyyy_mm_dd').between(start, end))
.select('yyyy_mm_dd', 'x_id', 'h_id', 'app', 'kpi')
)
然后我加入并聚合包含产品列表的第二个数据框。
aggregate = (
t1
.join(t2, on = ['app', 'kpi'], how = 'left')
.groupby('x_id', 'product')
.agg(
sf.countDistinct('h_id').alias('count_ever')
)
)
上面的聚合使我可以看到自, perh_id
以来使用每种产品的不同数量。2018-11-01
x_id
我想知道如何将聚合修改为仍然countDistinct()
在季度开始和结束日期之间而不是所有时间之间。
2018-11-01 -> 2021-02-19
因此,我不会像我的代码那样计算ever ( ),而是计算这些范围:
2018-11-01 -> 2018-12-31
2019-01-01 -> 2019-03-31
2019-04-01 -> 2019-06-30
2019-07-01 -> 2019-09-30
2019-10-01 -> 2019-12-31
2020-01-01 -> 2020-03-31
2020-04-01 -> 2020-06-30
2020-07-01 -> 2020-09-30
2020-10-01 -> 2020-12-31
2021-01-01 -> 2021-02-19
预期的输出将与我的代码产生的相同,但有额外的年/季度分组。
解决方案
您也可以按季度分组,使用trunc
日期:
aggregate = (
t1
.join(t2, on = ['app', 'kpi'], how = 'left')
.groupby('x_id', 'product', sf.trunc(sf.to_date('yyyy_mm_dd', 'yyyy_MM_dd'), 'quarter').alias('quarter'))
.agg(
sf.countDistinct('h_id').alias('count_ever')
)
)
推荐阅读
- jsonschema - 引用 json 模式数组中的多种类型
- node.js - 如何在 Node 中获取 HTTPS 网站的 HTML 源代码
- c++ - 为什么可以通过复制或引用返回相同的表达式?
- c - 服务器端意外的套接字关闭
- reactjs - 如何使用 create react app 自定义我的 webpack
- tensorflow - ValueError:无法将输入数组从形状(512,512)广播到形状(512,512,1)
- multithreading - 如何在不同的 cpu pthread 之间传递 openCL 上下文?
- python - 更改一个列表恰好更改了备份列表
- python - 使用生成的 Python 提供 API 网关验证
- php - 如何使用 PHP 关联数组作为函数调用参数?