首页 > 解决方案 > 检查一列是否全部为空

问题描述

我有一个列名和一个数据框。我想检查该列中的所有值是否为空,如果为空,则从数据框中删除该列。

我所做的是检查具有非空值的列的计数,如果计数等于 0,则删除该列,但这在 pyspark 中似乎是一项昂贵的操作

标签: apache-sparkpysparkapache-spark-sql

解决方案


你这样做的方式是正确的方式。关于性能,您可能希望在数据帧上使用缓存(如果它适合内存)。
还要考虑首先对数据帧的子集(甚至仅第一行)进行操作,以便找到绝对不总是空的列。这应该会减少您必须检查完整数据的列数


推荐阅读