首页 > 解决方案 > 如何将两个数据集的模式与 Spark 进行比较?

问题描述

我有两个具有以下架构的数据集(dsFile 和 dsTable):

ds文件:

dsFile
  |-- A: string (nullable = true)
  |-- B: string (nullable = true)
  |-- C: string (nullable = true)

数据表:

dsTable
  |-- A: string (nullable = true)
  |-- B: string (nullable = true)
  |-- C: string (nullable = true)
  |-- D: string (nullable = true)
  |-- E: string (nullable = true)

我想知道是否有办法找到这两个数据集之间的列差异?并构建一个具有差异的新 dsFile 数据集:

dsFileNew:

dsFileNew
  |-- A: string (nullable = true)
  |-- B: string (nullable = true)
  |-- C: string (nullable = true)
  |-- D: string (nullable = true) // column of dsTable
  |-- E: string (nullable = true) // column of dsTable

标签: scalaapache-sparkapache-spark-dataset

解决方案


推荐阅读