首页 > 解决方案 > 如何在 Java 中附加两个具有不同列的 Spark 数据帧

问题描述

我有一个数据帧,我正在其上执行一个 UDF 操作,然后 UDF 的操作在数据帧中只给出一列。我如何将它附加到以前的 Datafram。示例:数据框 1:sr_no、姓名、薪水

Dataframe 2:UDF 将输出作为 ABS(Salary) - 只有一列作为 UDF 的输出应用于 Dataframe1

我如何在 JAVA 中将输出数据帧作为 Dataframe1 + Dataframe2 即 sr_no、姓名、薪水、ABS(薪水)输出

标签: javaapache-sparkapache-spark-sql

解决方案


看起来您正在寻找.withColumn方法:

df1.withColumn("ABS(salary)", yourUdf.apply(col("salary")))

(片段需要从导入静态col方法org.apache.spark.sql.functions


推荐阅读