首页 > 解决方案 > 使用 SparkR 创建的数据框和使用 Sparklyr 创建的数据框有什么区别?

问题描述

我正在阅读 Azure 数据块中的镶木地板文件:使用 SparkR > read.parquet() 使用 Sparklyr > spark_read_parquet() 两个数据帧都不同,有没有办法将 SparkR 数据帧转换为 sparklyr 数据帧,反之亦然?

标签: rparquetdatabrickssparkrsparklyr

解决方案


sparklyr 创建 tbl_spark。这本质上只是一个用 Spark SQL 编写的惰性查询。SparkR 创建了一个 SparkDataFrame,它更像是使用计划组织的数据集合。

同样,您不能将 tbl 用作普通的 data.frame,您也不能像使用 SparkDataFrame 一样使用 tbl_spark。

我能想到的将一个转换为另一个的唯一方法是将其写入您的数据湖/数据仓库或先将其读入 r。


推荐阅读