pyspark - 过滤 RDD 文件
问题描述
我有一个 rdd 就是关于 covid 的信息,其中包含这两个字段和索引:
syntomns
带索引 [2]
result
带索引 [6] *
我想查询result = 'positive' 时最常见的症状
我正在努力
def result(line):
field = line.split(';')[6]
if field == 'Positive':
return field
和
rdd.map(result).filter(lambda x: x.split(';')[2]).take(5)
但它不起作用。
有人可以在这里给我一些帮助吗?
解决方案
推荐阅读
- r - 在 RMarkdown 上使用附录时包括引用和参考
- python - 按主题提取关键词
- p5.js - 在 p5 中,仅在单击画布时使用 mouseClicked() 函数
- javascript - 奇怪的输出“
试图编写一个脚本来转储我的 MongoDB,然后再次将其恢复到测试数据库中。
const {spawn} = require('child_process'); const backupDB = spawn('C:\\_Apps\\mongo\\bin\\mongodump.exe', [ '--host', 'localho
- javascript - 如何在当前光标位置用单击的元素替换字符?
- c++ - C++ 内存地址
- php - 如何保存多个复选框
- c# - Windows 10 与 xp、7 和 8 中的按键事件行为
- javascript - Angular中的外部
- python - 为调用子进程以运行 git 命令的函数编写单元测试