首页 > 解决方案 > 如何在火花数据框中使用 for 循环?

问题描述

我想对特定列中具有不同值的 pyspark 数据框进行循环。看来它的工作方式与在 python 中使用 pandas 的方式不同。我怎样才能做到这一点?

假设我有以下数据框:

+---------+
|val1|val2|
+---------+
|1   |10  |
|2   |11  |
|1   |10  |
|2   |12  |
|3   |13  |
|1   |15  |
|1   |11  |
|1   |16  |
|3   |17  |
|3   |18  |
|2   |12  |
|2   |11  |
|3   |14  |
|1   |19  |
|1   |17  |
+---------+

我想为每个不同的 val1 (1,2,3) 制作 val2 的直方图。

我如何使用 for 循环来做到这一点?

谢谢!

标签: for-looppyspark

解决方案


推荐阅读