首页 > 解决方案 > 如何过滤元组rdd列表

问题描述

我有一个要过滤的元组列表,如果数字大于 10,然后显示过滤后 rdd的计数

rdd_ = [('Mike', 10), ('Adam', 9), ('Peter', 15), ('Vicky', 26), ('Tim', 45)]

result_rdd = [('Peter', 15), ('Vicky', 26), ('Tim', 45)]

count_rdd = [3]

提前致谢

标签: apache-sparkpysparkrdd

解决方案


RDD的使用filtercount方法:

rdd = sc.parallelize([('Mike', 10), ('Adam', 9), ('Peter', 15), ('Vicky', 26), ('Tim', 45)])

result_rdd = rdd.filter(lambda x: x[1] > 10)

count_rdd = result_rdd.count()

推荐阅读