r - 使用 SparkR 创建的数据框和使用 Sparklyr 创建的数据框有什么区别?
问题描述
我正在阅读 Azure 数据块中的镶木地板文件:使用 SparkR > read.parquet() 使用 Sparklyr > spark_read_parquet() 两个数据帧都不同,有没有办法将 SparkR 数据帧转换为 sparklyr 数据帧,反之亦然?
解决方案
sparklyr 创建 tbl_spark。这本质上只是一个用 Spark SQL 编写的惰性查询。SparkR 创建了一个 SparkDataFrame,它更像是使用计划组织的数据集合。
同样,您不能将 tbl 用作普通的 data.frame,您也不能像使用 SparkDataFrame 一样使用 tbl_spark。
我能想到的将一个转换为另一个的唯一方法是将其写入您的数据湖/数据仓库或先将其读入 r。
推荐阅读
- c# - 如何在 .NET Core 控制台应用程序中使用 Microsoft.Extensions.DependencyInjection?
- tensorflow - tensorflow keras 序列模型 - 如何仅预测最后一步的输出
- spring - Spring Cloud Gateway 服务器启动时出现问题?
- apache-spark - 如何在集群部署模式下管理作业依赖
- shell - Sox - 使用 Shell 脚本对音频文件进行批量标准化的 Automator 文件夹操作
- javascript - 功能组件和对象值
- python - 将 pandas DataFrame 列拆分为 OneHot/Binary 列
- android - 调整当前宽度相等的单个线性布局子元素的宽度?
- firebase - 在 GitLab 中安装 Firebase 工具的权限被拒绝错误
- apache-nifi - Apache Nifi 1,8,0 和 CryptographicHashContent