pyspark - Pyspark 查看第一行和第二行值并按顺序更新数据

问题描述

在 pyspark 中假设我们有三列 Start_date, duration, End_date。我如何查看第一行end_date和第二行Start_date。如果第二行start_date大于第一行结束日期，则不执行任何操作，否则如果第一行End_date小于第二行，Start_date则start_date用第一行替换第二行end_date，并将第二行的持续时间添加到第二行start_date并用新值替换end_date第二行。并完成一组ID。

标签： pyspark

使用窗口lag/lead函数 partitionBy id， orderBystart_date将第一行end_Date与第二行进行比较start_date。

使用when otherwise带有datediff函数的语句来计算列的日期差异duration。

pyspark - Pyspark 查看第一行和第二行值并按顺序更新数据

问题描述

解决方案

推荐阅读