for-loop - 如何在火花数据框中使用 for 循环?
问题描述
我想对特定列中具有不同值的 pyspark 数据框进行循环。看来它的工作方式与在 python 中使用 pandas 的方式不同。我怎样才能做到这一点?
假设我有以下数据框:
+---------+
|val1|val2|
+---------+
|1 |10 |
|2 |11 |
|1 |10 |
|2 |12 |
|3 |13 |
|1 |15 |
|1 |11 |
|1 |16 |
|3 |17 |
|3 |18 |
|2 |12 |
|2 |11 |
|3 |14 |
|1 |19 |
|1 |17 |
+---------+
我想为每个不同的 val1 (1,2,3) 制作 val2 的直方图。
我如何使用 for 循环来做到这一点?
谢谢!
解决方案
推荐阅读
- ansible - Ansible with_subelements(列表)
- javascript - 定义解析器并注入 ngrx 存储后,路由器停止工作
- reactjs - 如何在反应中显示对象属性的属性值?
- apache-spark - 如何在火花提交中添加多个罐子?
- spring - 如何添加将响应从一个类转换为不同类的中间件
- python - 如何从背景和文本颜色相似的轮胎等图像中检测文本?
- .htaccess - 如何将包含特定目录的所有 URL 重定向到目录的小写版本?例如 /Test/ 到 /test/
- google-apps-script - Bound Apps 脚本正在从其他项目中获取
- kotlin - 如果 when 用作表达式而不是语句,则在 when 表达式中使用密封类的原因是什么?
- reactjs - 如何更改影子根关闭以打开,React