首页 > 解决方案 > Datediff 针对常量字符串 Pyspark?

问题描述

我有一个 PySpark 数据框,例如:

my_date 
-------
2021-10-15
2021-10-16
2021-10-17

我希望最终结果(datediff反对2021-10-15)看起来像:

my_date       date_diff
-----------------------
2021-10-15 |.    0
2021-10-16 |.    1
2021-10-17 |.    2

这个数据框被称为df,我知道我可以datediff两列,但我怎样才能做到这一点反对一个常数(最大性能),如date_str = '2021'10-15'

我想做类似的事情:

final_df = df
  .select(
      my_date,
      datediff(my_date, '2021-10-15')) as date_diff
   )

这可以实现吗?此代码给出错误,因为它需要一列而不是2021-10-15

谢谢!

标签: pythondataframe

解决方案


推荐阅读