首页 > 解决方案 > 删除后如何避免火花数据框中的列名不明确

问题描述

我使用 pyspark 2。在我的架构中,我有一个重复的列名:“IRLS”和“irls”我读了我的 avro 文件:

data=spark.read.format("com.databricks.spark.avro").load(data_path)

我删除列并重新分配:

delete=['IRLS','irls']
data=data.drop(*delete)

我看到重复的列在之后消失了

data.printSchema()

但是当我尝试读取数据框的一列时,我仍然收到重复错误

data.select(data.env).take(2)

"Reference 'IRLS' is ambiguous, could be: IRLS#4413, IRLS#4422.;"

标签: apache-sparkpysparkapache-spark-sqlavro

解决方案


推荐阅读