apache-spark-sql - 使用 Pyspark-SQL 估计性别平衡
问题描述
我是使用 Spark SQL 和 Docker 的新手,所以我有一个与此相关的问题。即下面你可以怎么看我的数据
所以现在我想选择性别平衡最大的前5家公司(男性用户数量和女性用户数量的绝对差异。男性和女性数量相同意味着最大的性别平衡)并按字母顺序排列。我尝试这样的事情,但这是不正确的。
calculation1 = dataframe.where(dataframe.gender.like('%Female%')).select(f.count(dataframe.gender).groupBy(dataframe.company_name))
.toPandas()
calculation2 = dataframe.where(dataframe.gender.like('%Male%')).select(f.count(dataframe.gender).groupBy(dataframe.company_name))
.toPandas()
table = concatenate(calculation1,calculation2)
那么有人可以帮我解决这个问题吗?
解决方案
推荐阅读
- c# - 使用 C# 和 Unity 在一个循环中连续移动“播放器”
- symbolic-math - 如何在 KLEE 中找到路径条件?理想情况下,如何找到最长/最短路径的路径条件
- selenium - 詹金斯奴隶没有在 GUI 中访问 chrome
- c - 在 C 中使用 system()、fgets 和 sprintf 将文本附加到文件时出现问题
- c# - 增加单核 CPU 使用率
- mysql - 如何在另一台计算机上安装我的 MAMP 数据库?
- java - 切换场景保持状态 JavaFx
- react-native - 如何使用 createBottomTabNavigator 中的导航按钮
- android - 什么时候在android webview中调用shouldInterceptRequest()
- python - 为 select_related 添加注解值