apache-spark - 将 spark 数据框转换为没有 pandas 数据框的元组列表
问题描述
我有一个将熊猫数据框转换为元组列表的现有逻辑。
list(zip(*[df[c].values.tolist() for c in df]))
其中 df 是熊猫数据框。
有人请帮我在 pyspark 中实现没有熊猫的相同逻辑。
解决方案
您可以先使用该方法将 转换dataframe
为。数据框中的A也是,因此您可以:RDD
rdd
Row
tuple
rdd = df.rdd
b = rdd.map(tuple)
b.collect()
示例 DF:
df.show()
+-----+-----+
| Name|Score|
+-----+-----+
|name1|11.23|
|name2|14.57|
|name3| 2.21|
|name4| 8.76|
|name5|18.71|
+-----+-----+
后b.collect()
[('name1', 11.23), ('name2', 14.57), ('name3', 2.21), ('name4', 8.76), ('name5', 18.71)]
编辑
如果你要遍历这个元组列表,你可以调用collect()
,但正确的方法是toLocalIterator()
推荐阅读
- python - 如何修复 AttributeError:'NoneType' 对象在此特定代码中没有属性 'strip'?
- bash - 如何在 Mac OS X 中使用 Bash 将 +1 添加到纪元时间?
- ios - Mapkit 显示格式如下:城市,州,国家
- c++ - void 后面的 * 符号是什么意思。添加 void* 对函数有什么作用?
- python - ImportError:无法从部分初始化的模块“openpyxl”导入名称“工作簿”
- javascript - 指针事件 API 不一致
- php - 意外警报打开导致 Behat/Mink 测试出错
- python - python excel减去2个工作表
- git - 如何找到从哪个 github 分支标签创建的?
- bash - 分配变量时尝试在其中添加两个变量