apache-spark - 删除后如何避免火花数据框中的列名不明确
问题描述
我使用 pyspark 2。在我的架构中,我有一个重复的列名:“IRLS”和“irls”我读了我的 avro 文件:
data=spark.read.format("com.databricks.spark.avro").load(data_path)
我删除列并重新分配:
delete=['IRLS','irls']
data=data.drop(*delete)
我看到重复的列在之后消失了
data.printSchema()
但是当我尝试读取数据框的一列时,我仍然收到重复错误
data.select(data.env).take(2)
"Reference 'IRLS' is ambiguous, could be: IRLS#4413, IRLS#4422.;"
解决方案
推荐阅读
- javascript - window.onload 不会覆盖原型函数
- javascript - 替换 escape() 和 unescape() 以及已存储字符串的后果
- ecmascript-6 - 对象数组过滤器优化
- python-3.x - 熊猫迭代非常慢
- django - 使用通配符子域将 docker 连接到 docker 容器
- java - 将数组返回到另一个类
- java - 如何解决“request.getSession().getId()”返回“32 个字符的会话 ID + (.test)”的会话 ID 问题
- python - 仅在熊猫中更改特定行的特定列的类型
- mapbox-android - 适用于 Android 的 Mapbox Android 注释插件
- sql-server - Spark 批量插入到 MS-SQL