pyspark - 如何在pyspark中自动删除常量列?
问题描述
我在 pyspark 中有一个 spark 数据框,我需要从我的数据框中删除所有常量列。由于我不知道哪些列是常量,我无法手动取消选择常量列,即我需要一个自动程序。我很惊讶我无法在 stackoverflow 上找到一个简单的解决方案。
例子:
import pandas as pd
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()
d = {'col1': [1, 2, 3, 4, 5],
'col2': [1, 2, 3, 4, 5],
'col3': [0, 0, 0, 0, 0],
'col4': [0, 0, 0, 0, 0]}
df_panda = pd.DataFrame(data=d)
df_spark = spark.createDataFrame(df_panda)
df_spark.show()
输出:
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| 1| 1| 0| 0|
| 2| 2| 0| 0|
| 3| 3| 0| 0|
| 4| 4| 0| 0|
| 5| 5| 0| 0|
+----+----+----+----+
期望的输出:
+----+----+
|col1|col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+
在 pyspark 中自动删除常量列的最佳方法是什么?
解决方案
首先计算每列中的不同值,然后删除仅包含一个不同值的列:
import pyspark.sql.functions as f
cnt = df_spark.agg(*(f.countDistinct(c).alias(c) for c in df_spark.columns)).first()
cnt
# Row(col1=5, col2=5, col3=1, col4=1)
df_spark.drop(*[c for c in cnt.asDict() if cnt[c] == 1]).show()
+----+----+
|col1|col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+
推荐阅读
- spring-data-jpa - 将 H2 sql 查询转换为 JPQL
- apache - Apache webgate 与 docker 应用程序的集成
- javascript - Ajax 没有得到成功响应
- java - 当观察者需要不同的参数来更新时,观察者设计模式中该怎么做
- amazon-web-services - 值为“bucket-owner-full-control”的 s3:x-amz-acl 是什么意思?
- c# - 窗体上的 WPF C# 运行时图形编辑器。最简单的解决方案
- r - 如何获得要在 RMarkdown 中显示的 highchart 图表?
- javascript - 如何在模板文字中嵌入 DOM 元素
- mongodb - 聚合:从另一个对象向 mongo 文档添加字段
- maven - 集成测试执行应该等到服务器准备好