python - 具有给定数据集条件的 PySpark RDD 编程代码

问题描述

数据集 1：Employee.txt

ID,Name,AGE,SALARY
101,A,21,8000
102,B,22,14000
103,C,23,7000

使用 PySpark RDD 帮助计算年龄大于 25 岁的员工人数？

标签： pythonapache-sparkpysparkrdd

您可以简单地在 RDD 上使用filterthen ：count

rdd = sc.textFile("Employee.txt")

gt25_count = rdd.filter(lambda x: x != "ID,Name,AGE,SALARY") \
                .map(lambda x: x.split(",")) \
                .filter(lambda x: int(x[2]) > 25) \
                .count()

print(gt25_count)
# 0

python - 具有给定数据集条件的 PySpark RDD 编程代码

问题描述

解决方案

推荐阅读