python - 'GroupedData' 对象在 spark 数据帧中执行枢轴时没有属性'show'
问题描述
我想旋转一个 spark 数据框,我参考 pyspark 文档,并且基于pivot
函数,线索是.groupBy('name').pivot('name', values=None)
. 这是我的数据集,
In[75]: spDF.show()
Out[75]:
+-----------+-----------+
|customer_id| name|
+-----------+-----------+
| 25620| MCDonnalds|
| 25620| STARBUCKS|
| 25620| nan|
| 25620| nan|
| 25620| MCDonnalds|
| 25620| nan|
| 25620| MCDonnalds|
| 25620|DUNKINDONUT|
| 25620| LOTTERIA|
| 25620| nan|
| 25620| MCDonnalds|
| 25620|DUNKINDONUT|
| 25620|DUNKINDONUT|
| 25620| nan|
| 25620| nan|
| 25620| nan|
| 25620| nan|
| 25620| LOTTERIA|
| 25620| LOTTERIA|
| 25620| STARBUCKS|
+-----------+-----------+
only showing top 20 rows
然后我尝试 di 透视表名
In [96]:
spDF.groupBy('name').pivot('name', values=None)
Out[96]:
<pyspark.sql.group.GroupedData at 0x7f0ad03750f0>
当我试图向他们展示
In [98]:
spDF.groupBy('name').pivot('name', values=None).show()
Out [98]:
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-98-94354082e956> in <module>()
----> 1 spDF.groupBy('name').pivot('name', values=None).show()
AttributeError: 'GroupedData' object has no attribute 'show'
我不知道为什么'GroupedData'
不能显示,我应该怎么解决这个问题?
解决方案
该pivot()
方法返回一个GroupedData
对象,就像groupBy()
. 你不能show()
在一个GroupedData
对象上使用之前不使用聚合函数(例如sum()
或什至count()
)。
有关更多信息,请参阅本文
推荐阅读
- python - Matplotlib:在 hexbin 图中使用最常见值的 bin 组周围添加边框
- google-photos - 用于存档照片的 Google Photos API
- javascript - 403 在 Vue.js + CodeIgniter 4 中被禁止
- tensorflow - 使用 tensorflow 2.5.0 和 nvidia 11.1 / 455 的 GPU 无法与 Debian 10 一起使用
- python - Pandas:删除符合条件的值
- angular - 角垫表示意图问题
- docker - 未找到 Docker Image-pip3
- apache - htaccess 和 htpasswd 保护根子目录
- c++ - 当比较两个版本号时 vnum1=vnum1*10 做了什么
- python - 如何在 PySide2 上为 QSlider 创建“标记”?