python - 具有给定数据集条件的 PySpark RDD 编程代码
问题描述
数据集 1:Employee.txt
ID,Name,AGE,SALARY
101,A,21,8000
102,B,22,14000
103,C,23,7000
使用 PySpark RDD 帮助计算年龄大于 25 岁的员工人数?
解决方案
您可以简单地在 RDD 上使用filter
then :count
rdd = sc.textFile("Employee.txt")
gt25_count = rdd.filter(lambda x: x != "ID,Name,AGE,SALARY") \
.map(lambda x: x.split(",")) \
.filter(lambda x: int(x[2]) > 25) \
.count()
print(gt25_count)
# 0
推荐阅读
- javascript - jQuery:在 HTMLFormElement.toString 处超出了最大调用堆栈大小
- ruby-on-rails - Shrine.rb - 上传后如何访问文件路径/原始文件
- javascript - 如何隔离和提取常见的 axios 调用以防止代码重复?
- ubuntu - 他尝试更新 ubuntu 13.10 时出错
- typescript - 如何将源发出的值与前一个值合并
- r - 生存曲线中多组的不同颜色类型和线类型
- angular - 使用迭代从具有绑定 NgModel 的对象数组创建动态表单
- java - 如果在 Java 中使用 toString 修改字符串时 StringBuilder 的效率
- python - 在 Linux 上运行 python 没有互联网连接
- android - 如何在 Android Studio 中删除我的项目中的即时应用支持