apache-spark - 如何计算考拉聚合中的唯一值
问题描述
刚接触考拉,尝试做一些非常基本的事情。我只是想计算聚合中列中的唯一值。在熊猫中,我会这样做:
df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique})
但是例如ks.Series.nunique
不起作用,并且“计数”似乎也没有给出正确的答案。
对于如此简单和常见的事情非常令人沮丧,而且令人讨厌的是,我似乎无法在文档中找到它,因为它自称是移植 pandas 来激发火花。
解决方案
您可以使用该功能nunique
df.groupby('columnname')['column_i_want_count_of_unique_values'].nunique()
推荐阅读
- xquery - eXist-db 更安全的替代 system:as-user() 来访问帐户元数据
- kubernetes - RBAC:具有多个命名空间的角色
- android - 不推荐使用 MediaStore.Images.Media.insertImage
- python - 未找到模块“psycopg2”“PostGreSQL”
- javascript - 组件的值未更新
- kubernetes - 如何将bitbucket服务器上的用户目录同步到jira并同时在aks上运行?
- mysql - 如何获得准确的 15 天前的记录不在之间
- python - Python boto3 SNS 电子邮件格式(新行中的每个字符串)
- spring-boot - 使用spring boot spring batch加载和保存(csv格式)部分大数据CSV
- powershell - Get-ChildItem 但没有文件夹(完成此部分)并且只有某些文件类型