首页 > 解决方案 > 连接具有相同列的两个数据框会产生重复的列

问题描述

val renamedColsMinifiedRdd = readRddAvro.select(
  column("headers"),
  column("value.customer").alias("customer"),
  column("value.associations").alias("associations"),
  column("value.lastRefresh").alias("lastRefresh")
).limit(20)

val miniOrc = readRddOrc.select(
  column("headers"),
  column("customer").alias("customer"),
  column("associations").alias("associations"),
  column("lastRefresh").alias("lastRefresh")
).limit(20)

我有两个要合并的数据框,如下所示:

val unionedDataframes = renamedColsMinifiedRdd.unionByName(miniOrc)

但是,我的输出数据框有两个重复的列。

 |-- customer: struct (nullable = true)
 |    |-- associationType: string (nullable = true)
 |-- customer: struct (nullable = true)
 |    |-- associationType: string (nullable = true)

然而,我应该只有一个具有此名称的列。

标签: scalaapache-spark

解决方案


推荐阅读