首页 > 解决方案 > Pyspark 将年和周数转换为 week_start 日期和 week_end 日期

问题描述

我正在尝试使用 Pyspark 数据框将年和周数转换为周开始日期和周结束日期。

+---------+
|year_week|
+---------+
| 2019-W51|
| 2019-W52|
| 2020-W01|
| 2020-W02|
| 2020-W03|
| 2020-W04|
| 2020-W05|
| 2020-W06|
| 2020-W07|
+---------+

当我尝试应用以下代码时,我收到列对象不可迭代的错误

df = df.withColumn('week_start_date', df.year_week.apply(lambda x: datetime.datetime.strptime(d + '-1', "%Y-W%W-%w")))

错误

TypeError: 'Column' object is not callable

预期结果是:

+---------+----------+----------+
|year_week|week_start|  week_end|
+---------+----------+----------+
| 2019-W51|2019-12-16|2019-12-22|
| 2019-W52|2019-12-23|2019-12-29|
| 2020-W01|2019-12-30|2020-01-05|
| 2020-W02|2020-01-06|2020-01-12|
| 2020-W03|2020-01-13|2020-01-19|
| 2020-W04|2020-01-20|2020-01-26|
| 2020-W05|2020-01-27|2020-02-02|
| 2020-W06|2020-02-03|2020-02-09|
| 2020-W07|2020-02-10|2020-02-16|
+---------+----------+----------+

标签: pythonpysparkapache-spark-sqlpyspark-dataframes

解决方案


根据 Someshwar 的响应,只需对来自 scala 的 python 进行轻微更改。

df1 = df.withColumn("week_start", F.to_date(F.concat(F.col("year_week"), F.lit("-1")), "YYYY-'W'ww-u")).withColumn("week_end", F.next_day(F.col("week_start"), "SUN"))

推荐阅读