首页 > 解决方案 > 如何在火花python中过滤删除空值

问题描述

我正在尝试过滤掉列中的空值并计算它是否大于 1。

badRows = df.filter($"_corrupt_record".isNotNull) if badRows.count > 0: logger.error("throwing bad rows exception...") schema_mismatch_exception(None, "cdc", item )

我收到语法错误。还尝试检查使用:

badRows = df.filter(col("_corrupt_record").isNotNull), badRows = df.filter(None, col("_corrupt_record")), badRows = df.filter("_corrupt_record isNotnull")

如果_corrupt_record列中有数据,过滤掉的正确方法是什么

标签: pythonpandasspark-streamingaws-glue

解决方案


试试,例如

import pyspark.sql.functions as F
...
df.where(F.col("colname").isNotNull()) 
...

您提供的许多选项都不是您注意到的正确语法。


推荐阅读