首页 > 解决方案 > Spark:有条件地将 col1 值替换为 col2

问题描述

我有一个已加入旧数据和更新数据的数据框:

我想折叠此数据,因此只要 model_update 列中的非空值可用,它就会替换同一行中的模型列值。如何做到这一点?

数据框:

+----------------------------------------+-------+--------+-----------+------------+
|id                                      |make   |model   |make_update|model_update|
+----------------------------------------+-------+--------+-----------+------------+
|1234                                    |Apple  |iphone  |null       |iphone x    |
|4567                                    |Apple  |iphone  |null       |iphone 8    |
|7890                                    |Apple  |iphone  |null       |null        |
+----------------------------------------+-------+--------+-----------+------------+

理想结果:

+----------------------------------------+-------+---------+
|id                                      |make   |model    |
+----------------------------------------+-------+---------|
|1234                                    |Apple  |iphone x |
|4567                                    |Apple  |iphone 8 |
|7890                                    |Apple  |iphone   |
+----------------------------------------+-------+---------+

标签: scalaapache-sparkconditionalpyspark-sql

解决方案


这是一个快速的解决方案:

val df2 = df1.withColumn("New_Model", when($"model_update".isNull ,Model)
                                  .otherwise(model_update))

其中 df1 是您的原始数据框。


推荐阅读