首页 > 解决方案 > rdd在pyspark数据框中是什么意思

问题描述

我是 pyspark 的新手。我想知道 rdd 在 pyspark 数据框中是什么意思。

weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)

这两行代码具有相同的输出。我想知道 rdd 有什么影响

weatherData.collect()
weatherData.rdd.collect()

标签: pysparkpyspark-sql

解决方案


数据框是一个表格,或类似二维数组的结构,其中每一列包含一个变量的测量值,每一行包含一个案例。

因此,DataFrame由于其表格格式,a 具有额外的元数据,这允许 Spark 对最终查询运行某些优化。

RDD另一方面,An只是一个R弹性D分布式数据集,它更像是一个无法优化的数据黑盒,因为可以对其执行的操作不受限制

但是,你可以通过它的方法从一个DataFrame到一个,你可以通过这个方法从一个RDD到一个DataFrame(如果RDD是表格格式)RDD.rdd.toDF()

通常,由于内置查询优化,建议尽可能使用 DataFrame。


推荐阅读