scala - 如何将两个数据集的模式与 Spark 进行比较?
问题描述
我有两个具有以下架构的数据集(dsFile 和 dsTable):
ds文件:
dsFile
|-- A: string (nullable = true)
|-- B: string (nullable = true)
|-- C: string (nullable = true)
数据表:
dsTable
|-- A: string (nullable = true)
|-- B: string (nullable = true)
|-- C: string (nullable = true)
|-- D: string (nullable = true)
|-- E: string (nullable = true)
我想知道是否有办法找到这两个数据集之间的列差异?并构建一个具有差异的新 dsFile 数据集:
dsFileNew:
dsFileNew
|-- A: string (nullable = true)
|-- B: string (nullable = true)
|-- C: string (nullable = true)
|-- D: string (nullable = true) // column of dsTable
|-- E: string (nullable = true) // column of dsTable
解决方案
推荐阅读
- c# - 如何在 C# 中使用 postgres 将 json 字符串转换为 jsonb 类型
- apache-kafka - 为什么要为 Kafka 使用 AVRO
- r - 如何使用 DPLYR 找到 3 个组之间共享最多的物种
- python - 获取具有加载屏幕的页面的 html
- selenium - 使用 Selenium 获取父元素的更好方法
- spring - 在 Spring 中,如何使用 WebClient 发布到 URL?
- javascript - 在 Javascript 中使用索引数组访问和修改任意深度的嵌套数组
- java - 带有异常抛出构造函数的初始化块
- java - Java正则表达式提取所有内容,但两个括号之间的内容
- php - NGINX 无权访问应用程序文件时的 NGINX 配置,以及 php-fpm 和 docker