apache-spark - 在pyspark数据框中的两个日期之间生成每月时间戳
问题描述
我有一些带有"date"
列的DataFrame,我正在尝试生成一个新的DataFrame,其中包含"date"
列中最小日期和最大日期之间的所有月度时间戳。
解决方案之一如下:
month_step = 31*60*60*24
min_date, max_date = df.select(min_("date").cast("long"), max_("date").cast("long")).first()
df_ts = spark.range(
(min_date / month_step) * month_step,
((max_date / month_step) + 1) * month_step,
month_step
).select(col("id").cast("timestamp").alias("yearmonth"))
df_formatted_ts = df_ts.withColumn(
"yearmonth",
f.concat(f.year("yearmonth"), f.lit('-'), format_string("%02d", f.month("yearmonth")))
).select('yearmonth')
df_formatted_ts.orderBy(asc('yearmonth')).show(150, False)
问题是我把它当作month_step
31 天,它并不真正正确,因为有些月份有 30 天甚至 28 天。有可能以某种方式使其更精确吗?
就像一个注释:稍后我只需要年份和月份值,所以我将忽略日期和时间。但无论如何,因为我在相当大的日期范围(2001 年到 2018 年之间)之间生成时间戳,所以时间戳会发生变化。
这就是为什么有时会跳过几个月。例如,此快照缺少 2010-02:
|2010-01 |
|2010-03 |
|2010-04 |
|2010-05 |
|2010-06 |
|2010-07 |
我查了一下,从 2001 年到 2018 年只跳过了 3 个月。
解决方案
假设您有以下 DataFrame:
data = [("2000-01-01","2002-12-01")]
df = spark.createDataFrame(data, ["minDate", "maxDate"])
df.show()
#+----------+----------+
#| minDate| maxDate|
#+----------+----------+
#|2000-01-01|2002-12-01|
#+----------+----------+
您可以按照与我对此问题的回答相同的方法添加一个列date
,其中包含所有月份。minDate
maxDate
只需替换pyspark.sql.functions.datediff
为pyspark.sql.functions.months_between
,并使用add_months
代替date_add
:
import pyspark.sql.functions as f
df.withColumn("monthsDiff", f.months_between("maxDate", "minDate"))\
.withColumn("repeat", f.expr("split(repeat(',', monthsDiff), ',')"))\
.select("*", f.posexplode("repeat").alias("date", "val"))\
.withColumn("date", f.expr("add_months(minDate, date)"))\
.select('date')\
.show(n=50)
#+----------+
#| date|
#+----------+
#|2000-01-01|
#|2000-02-01|
#|2000-03-01|
#|2000-04-01|
# ...skipping some rows...
#|2002-10-01|
#|2002-11-01|
#|2002-12-01|
#+----------+
推荐阅读
- python - Python - 如何从其他脚本中的函数返回值
- laravel - Laravel 5.5 队列和作业:永远不会执行作业
- django - 如何在 Django 中获取与模板相关的单个模型对象
- c# - 加载页面时,Ajax 调用未命中控制器
- python - 来自带有列表的嵌套 JSON 的熊猫数据框
- r - R中的多元Copulas和单根误差
- xamarin.forms - 如何以编程方式将新页面以模态方式推送到 xamarin 表单中选项卡式页面的子级之上
- javascript - 如何使用 javascript 添加在我的 TD 中输入的每个值?
- node.js - 使用节点js的aws lambda中的pdf缩略图
- mysql - 通过 In mysql 使用分区获取增量数