首页 > 解决方案 > 嵌套 Spark 数据帧的联合

问题描述

假设我们有两个数据框df1df2具有以下架构:

A
 |-- B: struct (nullable = true)
 |    |-- b1: string (nullable = true)
 |    |-- b2: string (nullable = true)
 |    |-- b3: string (nullable = true)
 |    |-- C: array (nullable = true)
 |    |    |-- D: struct (containsNull = true)
 |    |    |    |-- d1: string (nullable = true)
 |    |    |    |-- d2: string (nullable = true)

如果您想df1.union(df2)添加新记录,是否适用于这些嵌套数据框?或者如果您想添加新记录,您是否必须先将它们展平?

标签: pythonapache-sparkpyspark

解决方案


这应该可行,这是 databricks 的一篇知识文章 https://kb.databricks.com/data/append-a-row-to-rdd-or-dataframe.html

而且您不需要展平结构字段。

PS:请确保您的列在两个数据框中的顺序相同。


推荐阅读