首页 > 解决方案 > Pyspark 查看第一行和第二行值并按顺序更新数据

问题描述

在 pyspark 中假设我们有三列 Start_date, duration, End_date。我如何查看第一行end_date和第二行Start_date。如果第二行start_date大于第一行结束日期,则不执行任何操作,否则如果第一行End_date小于第二行,Start_datestart_date用第一行替换第二行end_date,并将第二行的持续时间添加到第二行start_date并用新值替换end_date第二行。并完成一组ID。

标签: pyspark

解决方案


使用窗口lag/lead函数 partitionBy id, orderBystart_date将第一行end_Date与第二行进行比较start_date


推荐阅读