首页 > 解决方案 > 如何查找 VALUE 列中有多少 TRUE 或 FALSE

问题描述

我有一个带有一列字符串的 PySpark 数据框。我确实发现这些列是否为数字。但现在我想找出 Value 列中有多少 TRUE。

values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)]
df = sqlContext.createDataFrame(values,['ID',])
df.show()
+-----+
|   ID|
+-----+
|25q36|
|75647|
|13864|
|8758K|
|07645|
+-----+

我确实应用了以下内容

from pyspark.sql import functions as F

my_df.select(
  "ID",
  F.col("ID").cast("int").isNotNull().alias("Value ")
).show()

+-----+------+
|   ID|Value |
+-----+------+
|25q36| false|
|75647|  true|
|13864|  true|
|8758K| false|
|07645|  true|
+-----+------+

但现在我想知道该列中有多少 TRUE 或 False。

标签: pythonpysparkbooleannumeric

解决方案


晚安。

尝试类似的东西...

df.groupBy('Value').count().show()

推荐阅读