首页 > 解决方案 > pyspark 删除重复列

问题描述

我正在使用 pyspark 2.4.0,我有一个包含以下列的数据框

a,b,b
0,1,1.0
1,2,2.0

没有任何连接,我必须只保留 b 列中的一个并删除其他 b 列

我怎样才能做到这一点

标签: pythonapache-sparkpysparkapache-spark-sql

解决方案


也许这有帮助-


 val df = Seq((0, 1, 1.0), (1, 2, 2.0)).toDF("a", "b", "b")
 df.show(false)
    df.printSchema()

    /**
      * +---+---+---+
      * |a  |b  |b  |
      * +---+---+---+
      * |0  |1  |1.0|
      * |1  |2  |2.0|
      * +---+---+---+
      *
      * root
      * |-- a: integer (nullable = false)
      * |-- b: integer (nullable = false)
      * |-- b: double (nullable = false)
      */
    df.toDF("a", "b", "b2").drop("b2").show(false)
    /**
      * +---+---+
      * |a  |b  |
      * +---+---+
      * |0  |1  |
      * |1  |2  |
      * +---+---+
      */

推荐阅读