首页 > 解决方案 > 熊猫数据帧的 PySpark rdd

问题描述

我正在提取不同源文件的信息。每个源文件对应于一些测量数据的给定快照时间。我有一个预处理函数,它采用其中一个文件并输出一个熊猫数据框。所以我做了一个 sparksc.wholeTextFiles调用,它给了我所有输入文件的列表,然后我调用map它,它为我提供了一个 rdd,其中每个元素都是一个 pandas 数据框。现在“重塑”这种结构的最佳方法是什么,以便我只有一个由连接的较小数据帧组成的结果数据帧?

标签: apache-sparkpyspark

解决方案


您可以创建火花数据框。假设这些文件位于一个位置并被定界,您可以使用 spark 创建一个包含所有文件数据的新数据框。

spark.read.option("header", "true").csv("../location/*")

之后,您可以使用 spark 中可用的大量转换。它们与 pandas 非常相似,并且适用于大数据,甚至比 RDD 更快。


推荐阅读