python - 嵌套 Spark 数据帧的联合
问题描述
假设我们有两个数据框df1
并df2
具有以下架构:
A
|-- B: struct (nullable = true)
| |-- b1: string (nullable = true)
| |-- b2: string (nullable = true)
| |-- b3: string (nullable = true)
| |-- C: array (nullable = true)
| | |-- D: struct (containsNull = true)
| | | |-- d1: string (nullable = true)
| | | |-- d2: string (nullable = true)
如果您想df1.union(df2)
添加新记录,是否适用于这些嵌套数据框?或者如果您想添加新记录,您是否必须先将它们展平?
解决方案
这应该可行,这是 databricks 的一篇知识文章 https://kb.databricks.com/data/append-a-row-to-rdd-or-dataframe.html
而且您不需要展平结构字段。
PS:请确保您的列在两个数据框中的顺序相同。
推荐阅读
- angular - 角度提交日期、时间和时区
- xamarin.forms - MapsUI mapView.Drawables 每个地图还是每个 mapView?
- awk - 比较两个文件,如果文件 1 中存在字符串,则打印 2,如果不存在则打印 1
- r - 使用 tryCatch() 将错误和警告存储在列表中
- javascript - 如何使用useState js向旧数组添加新数组?
- r - 具有重复测量的线性混合效应模型的先验和事后功效分析
- string - 从 SAS 中的字符串中识别 SSN
- javascript - 如何在 redux-toolkit 中查看状态变量?
- python - 如何对具有多列的 Pandas DataFrame 进行排序,一些按升序排列,另一些按降序排列?
- windows - 关机时运行的 Windows 脚本