首页 > 解决方案 > 使用 Pyspark-SQL 估计性别平衡

问题描述

我是使用 Spark SQL 和 Docker 的新手,所以我有一个与此相关的问题。即下面你可以怎么看我的数据 在此处输入图像描述

所以现在我想选择性别平衡最大的前5家公司(男性用户数量和女性用户数量的绝对差异。男性和女性数量相同意味着最大的性别平衡)并按字母顺序排列。我尝试这样的事情,但这是不正确的。

  calculation1 = dataframe.where(dataframe.gender.like('%Female%')).select(f.count(dataframe.gender).groupBy(dataframe.company_name))
    .toPandas()
    
    calculation2  = dataframe.where(dataframe.gender.like('%Male%')).select(f.count(dataframe.gender).groupBy(dataframe.company_name))
    .toPandas()
    
    table = concatenate(calculation1,calculation2)

那么有人可以帮我解决这个问题吗?

标签: apache-spark-sql

解决方案


推荐阅读