pyspark - Difference in SparkSQL Dataframe columns
问题描述
How do I locate difference between 2 dataframe columns ? This is causing issues when I join 2 dataframes.
df1_cols = df1.columns df2_cols = df2.columns This will return columns for 2 dataframe in 2 list variables.
Thanks
解决方案
df.columns
在此处返回一个列表,因此您可以使用 python 中的任何工具与另一个列表进行比较,即df2_cols
. 例如,您可以使用set
检查两个 DataFrame 中的公共列
df1_cols = df1.columns
df2_cols = df2.columns
set(df1_cols).intersection(set(df2_cols)) # check common columns
set(df1_cols) - set(df2_cols) # check columns in df1 but not in df2
set(df2_cols) - set(df1_cols) # check columns in df2 but not in df1
推荐阅读
- r - 如何将所有 Linux 环境变量读入 Docker 容器中的 R?
- javascript - 如何通过给定的点标签计算数组?
- python - 通过 python (Py2neo) 将大型数据集转录到 Neo4j
- node.js - 如何在mongoDB中动态添加匹配条件?
- java - 将 Spring HATEOAS 添加到 pom.xml 失败
- php - 在我的脚本完成很久之后,MySQL (RDS) 查询在我的进程列表中运行
- python - 使用 Tensorflow keras.Sequential() 在预测期间激活 dropout
- django - 这个错误是什么意思“异常值:必须实现`update()`。” 在 django restframework 中
- excel - 运行时错误 1004:对象 _global 的方法范围仅对一个用户失败
- openshift - OpenShift Code Ready Containers 您需要在 BIOS 中启用虚拟化