首页 > 解决方案 > 具有给定数据集条件的 PySpark RDD 编程代码

问题描述

数据集 1:Employee.txt

ID,Name,AGE,SALARY
101,A,21,8000
102,B,22,14000
103,C,23,7000

使用 PySpark RDD 帮助计算年龄大于 25 岁的员工人数?

标签: pythonapache-sparkpysparkrdd

解决方案


您可以简单地在 RDD 上使用filterthen :count

rdd = sc.textFile("Employee.txt")

gt25_count = rdd.filter(lambda x: x != "ID,Name,AGE,SALARY") \
                .map(lambda x: x.split(",")) \
                .filter(lambda x: int(x[2]) > 25) \
                .count()

print(gt25_count)
# 0

推荐阅读