pyspark - rdd在pyspark数据框中是什么意思
问题描述
我是 pyspark 的新手。我想知道 rdd 在 pyspark 数据框中是什么意思。
weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)
这两行代码具有相同的输出。我想知道 rdd 有什么影响
weatherData.collect()
weatherData.rdd.collect()
解决方案
数据框是一个表格,或类似二维数组的结构,其中每一列包含一个变量的测量值,每一行包含一个案例。
因此,DataFrame
由于其表格格式,a 具有额外的元数据,这允许 Spark 对最终查询运行某些优化。
RDD
另一方面,An只是一个R弹性D分布式数据集,它更像是一个无法优化的数据黑盒,因为可以对其执行的操作不受限制。
但是,你可以通过它的方法从一个DataFrame
到一个,你可以通过这个方法从一个RDD到一个DataFrame(如果RDD是表格格式)RDD
.rdd
.toDF()
通常,由于内置查询优化,建议尽可能使用 DataFrame。
推荐阅读
- javascript - 限制输入到文本框:它只接受数字,不应该接受十进制值
- javascript - 如何使用django递归关系回复特定评论并反应js
- python - 如何根据另一列值填充空索引或空行?
- java - 当类存储在数组中时Java返回数据类型
- php - Laravel 自定义 websocket 处理程序不起作用
- android - 我将 Android Studio 更新到最新版本(3.6.1),现在找不到 Gradle 插件
- keras - 无效参数:indices[0,0] = -4 不在 [0, 40405)
- json - JSON Schema 验证具有不同属性名称的 JSON
- linux - 如何在 Linux BASH 上使用 split 在文件末尾添加编号后缀?
- ruby - Puppet 从延迟函数运行中获取值