首页 > 解决方案 > 如何计算考拉聚合中的唯一值

问题描述

刚接触考拉,尝试做一些非常基本的事情。我只是想计算聚合中列中的唯一值。在熊猫中,我会这样做:

df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique})

但是例如ks.Series.nunique不起作用,并且“计数”似乎也没有给出正确的答案。

对于如此简单和常见的事情非常令人沮丧,而且令人讨厌的是,我似乎无法在文档中找到它,因为它自称是移植 pandas 来激发火花。

标签: apache-sparkpysparkspark-koalas

解决方案


您可以使用该功能nunique

df.groupby('columnname')['column_i_want_count_of_unique_values'].nunique()

推荐阅读