python-3.x - pyspark 中包含空值的行数
问题描述
例如,考虑一个 pyspark 数据框
columns = ['id', 'dogs', 'cats']
vals = [(1, 2, 0),(None, 0, 1),(5,None,9)]
df=spark.createDataFrame(vals,columns)
df.show()
+----+----+----+
| id|dogs|cats|
+----+----+----+
| 1| 2| 0|
|null| 0| 1|
| 5|null| 9|
+----+----+----+
我想编写一个代码,它返回 2 作为包含空值的行数
解决方案
df.subtract(df.dropna()).count()
df.dropna()
返回一个新的数据框,其中删除了包含 null 的任何行;EXCEPT
然后从原始数据帧中减去这个数据帧(相当于 SQL ),只保留其中包含空值的行。
这显然不像您只查看单个列那样漂亮,但这是我知道在涉及所有列时执行此操作的最简单方法。
推荐阅读
- javascript - HERE 折线编码:JavaScript -> Swift
- r - 在 r 中的 group_by 之后过滤
- python - 找出可以被数字 k 整除的字符串的子字符串数
- java - 如何在代码中登录 Weblogic 管理控制台
- javascript - 返回 Promise 的函数的单元测试
- tfs - 如何在在线冲刺板上添加栏目
- html - css中的几何形状,充满了内容
- npm - package-lock.json 文件中列出的依赖项具有混合 (sha1 / sha512) 完整性校验和。
- mongodb - 如何在 Scala 中使用 SSL 连接到 MongoDB?
- spring - Spring boot - 在 mongoDB 中处理 $regex 和 null