apache-spark - 如何过滤元组rdd列表
问题描述
我有一个要过滤的元组列表,如果数字大于 10,然后显示过滤后 rdd的计数
rdd_ = [('Mike', 10), ('Adam', 9), ('Peter', 15), ('Vicky', 26), ('Tim', 45)]
result_rdd = [('Peter', 15), ('Vicky', 26), ('Tim', 45)]
count_rdd = [3]
提前致谢
解决方案
RDD的使用filter
和count
方法:
rdd = sc.parallelize([('Mike', 10), ('Adam', 9), ('Peter', 15), ('Vicky', 26), ('Tim', 45)])
result_rdd = rdd.filter(lambda x: x[1] > 10)
count_rdd = result_rdd.count()
推荐阅读
- amazon-web-services - 使用 Terraform 创建多个 EBS 卷的快照
- c++ - 找出导致总和小于或等于阈值的三元组数量的代码给出了错误的输出
- ajax - 带有横向导航栏的 Django 单页网站
- c# - 使用 ASP GridView 中的删除按钮删除行
- python - 如何安装openpyxl==2.2.0b1
- bean-io - 使用 beanio (beanio.org) 编写平面文件。pojo 有父类
- java - 为对象列表优化 fastxml ObjectMapper
- google-maps - Google Maps API 是否使用移动 GPS 以不同的旅行方式跟踪距离?
- asp.net - 在 GoDaddy Windows 主机上与 WordPress 网站一起托管 ASP.NET Web API
- android - Kotlin 中的 Android Room Bug