首页 > 解决方案 > 过滤 RDD 文件

问题描述

我有一个 rdd 就是关于 covid 的信息,其中包含这两个字段和索引:

syntomns索引 [2] result索引 [6] *

我想查询result = 'positive' 时最常见的症状

我正在努力

def result(line):
   field = line.split(';')[6]
   if field == 'Positive':
     return field

rdd.map(result).filter(lambda x: x.split(';')[2]).take(5)

但它不起作用。

有人可以在这里给我一些帮助吗?

标签: pysparkrdd

解决方案


推荐阅读