首页 > 解决方案 > 将 spark 数据框转换为没有 pandas 数据框的元组列表

问题描述

我有一个将熊猫数据框转换为元组列表的现有逻辑。

list(zip(*[df[c].values.tolist() for c in df])) 

其中 df 是熊猫数据框。

有人请帮我在 pyspark 中实现没有熊猫的相同逻辑。

标签: apache-sparkpysparkpyspark-dataframes

解决方案


您可以先使用该方法将 转换dataframe为。数据框中的A也是,因此您可以:RDDrddRowtuple

rdd = df.rdd
b = rdd.map(tuple)
b.collect()

示例 DF:

df.show()
+-----+-----+
| Name|Score|
+-----+-----+
|name1|11.23|
|name2|14.57|
|name3| 2.21|
|name4| 8.76|
|name5|18.71|
+-----+-----+

b.collect()

[('name1', 11.23), ('name2', 14.57), ('name3', 2.21), ('name4', 8.76), ('name5', 18.71)]

编辑

如果你要遍历这个元组列表,你可以调用collect(),但正确的方法是toLocalIterator()


推荐阅读