首页 > 解决方案 > pyspark:如何根据相同 ID 的其他列修改列值

问题描述

我有一个包含 5 列的 pyspark 数据框:Id、值 X、X 的下限和上限以及更新日期(此数据框按“Id,Update”排序)。我从蜂巢表中读取它:

(spark.sql(Select *from table1 ordered by Update))

    +---+----------+----------+----------+----------+
    | Id|         X|        LB|        UB|    Update|
    +---+----------+----------+----------+----------+
    |  1|2019-01-20|2019-01-15|2019-01-25|2019-01-02|
    |  1|2019-01-17|2019-01-15|2019-01-25|2019-01-03|
    |  1|2019-01-10|2019-01-15|2019-01-25|2019-01-05|
    |  1|2019-01-12|2019-01-15|2019-01-25|2019-01-07|
    |  1|2019-01-15|2019-01-15|2019-01-25|2019-01-08|
    |  2|2018-12-12|2018-12-07|2018-12-17|2018-11-17|
    |  2|2018-12-15|2018-12-07|2018-12-17|2018-11-18|

当“X”小于“LB”或大于“UB”时,“LB”和“UB”将根据X和所有具有相同Id的行重新计算。

    if(X<LB | X>UB) LB = X-5 (in days)
                    UB = X+5 (in days)

结果应该是这样的:

    +---+----------+----------+----------+----------+
    | Id|         X|        LB|        UB|    Update|
    +---+----------+----------+----------+----------+
    |  1|2019-01-20|2019-01-15|2019-01-25|2019-01-02|
    |  1|2019-01-17|2019-01-15|2019-01-25|2019-01-03|
    |  1|2019-01-10|2019-01-05|2019-01-15|2019-01-05|
    |  1|2019-01-12|2019-01-05|2019-01-15|2019-01-07|
    |  1|2019-01-15|2019-01-05|2019-01-15|2019-01-08|
    |  2|2018-12-12|2018-12-07|2018-12-17|2018-11-17|
    |  2|2018-12-15|2018-12-07|2018-12-17|2018-11-18|

第三,第四和第五行被改变。怎样才能做到这一点?

标签: pyspark

解决方案


在 Select Expression 中尝试 Case 语句-

df.selectExpr("Id AS Id",
              "X AS X",
              "CASE WHEN X<LB OR X>UB THEN date_sub(X,5) ELSE LB END AS LB",
              "CASE WHEN X<LB OR X>UB THEN date_add(X,5) ELSE UB END AS UB",
              "Update AS Update").show()

推荐阅读