首页 > 解决方案 > R:如何合并使用 spark_read_csv 加载的两个文件

问题描述

我正在处理spark_read_csv以这种方式加载的数据:

library(sparklyr)
connection <- spark_connect(master = 'local')
all_data <- spark_read_csv(sc, "D:/my_data.csv")

在处理完这些数据后,我意识到我需要将它与另一个文件结合起来。第二个文件与第一个文件具有相同的变量和特征,我想用相同的方法加载它spark_read_csv

所以我的问题如下,是否可以使用该spark_read_csv方法加载两个文件然后合并它们?目的是将一个文件已经存在的列的值添加到另一个文件中

标签: rapache-sparksparklyr

解决方案


您可以合并两个数据框

x: SparkDataFrame
y: SparkDataFrame

union(x, y)

文档


推荐阅读