python - 如何在火花python中过滤删除空值
问题描述
我正在尝试过滤掉列中的空值并计算它是否大于 1。
badRows = df.filter($"_corrupt_record".isNotNull) if badRows.count > 0: logger.error("throwing bad rows exception...") schema_mismatch_exception(None, "cdc", item )
我收到语法错误。还尝试检查使用:
badRows = df.filter(col("_corrupt_record").isNotNull),
badRows = df.filter(None, col("_corrupt_record")),
badRows = df.filter("_corrupt_record isNotnull")
如果_corrupt_record列中有数据,过滤掉的正确方法是什么
解决方案
试试,例如
import pyspark.sql.functions as F
...
df.where(F.col("colname").isNotNull())
...
您提供的许多选项都不是您注意到的正确语法。
推荐阅读
- css - CSS:2 行布局,仅当组合高度超过 100% 时单独滚动每一行
- javascript - 刷新页面时获取的信号器
- medium.com - 有没有办法从“medium.com”帖子中删除“特色图片”?
- php - 如何从 laravel 中的多选返回选定值的列表?
- html - 换行后边框中的空白过多 - 移动
- powershell - 如何在powershell中剪切双引号中的第一个字段
- sql - SQL:如何从具有 OneToMany 关系的表中创建数据库视图?
- scala - delta-io/delta 项目编译失败
- symfony - 如何在 Symfony 中实例化自动装配服务?
- php - php mysql中的ajax数据响应始终为0