apache-spark - 检查一列是否全部为空
问题描述
我有一个列名和一个数据框。我想检查该列中的所有值是否为空,如果为空,则从数据框中删除该列。
我所做的是检查具有非空值的列的计数,如果计数等于 0,则删除该列,但这在 pyspark 中似乎是一项昂贵的操作
解决方案
你这样做的方式是正确的方式。关于性能,您可能希望在数据帧上使用缓存(如果它适合内存)。
还要考虑首先对数据帧的子集(甚至仅第一行)进行操作,以便找到绝对不总是空的列。这应该会减少您必须检查完整数据的列数
推荐阅读
- python - 完整性错误,创建新游戏实例时限制非空常量
- ios - 将模拟的 UIView 添加到视图层次结构
- php - 如何使用 Laravel 在控制器中显示视图
- angular - 尝试在我的自定义主题中导入角度材质主题文件,但找不到该文件
- ios - 在第二个动画之前查看跳转
- mysql - 如何修复“java.sql.SQLException:无法添加外键约束”。创建具有双主/外键关系的表时
- android - 如何支持 18.5:9 的宽高比?
- php - 如何在我的模态中显示来自 foreach 的数据?
- php - 基于关系 Laravel 5.8 和 Eloquent 更新数据库表
- c++ - 从 http 流(在 boost::beast 中)读取和写入的要求是什么?