python - pyspark 删除重复列
问题描述
我正在使用 pyspark 2.4.0,我有一个包含以下列的数据框
a,b,b
0,1,1.0
1,2,2.0
没有任何连接,我必须只保留 b 列中的一个并删除其他 b 列
我怎样才能做到这一点
解决方案
也许这有帮助-
val df = Seq((0, 1, 1.0), (1, 2, 2.0)).toDF("a", "b", "b")
df.show(false)
df.printSchema()
/**
* +---+---+---+
* |a |b |b |
* +---+---+---+
* |0 |1 |1.0|
* |1 |2 |2.0|
* +---+---+---+
*
* root
* |-- a: integer (nullable = false)
* |-- b: integer (nullable = false)
* |-- b: double (nullable = false)
*/
df.toDF("a", "b", "b2").drop("b2").show(false)
/**
* +---+---+
* |a |b |
* +---+---+
* |0 |1 |
* |1 |2 |
* +---+---+
*/
推荐阅读
- angular - 制作两个 Objets to mach
- java - 如何在我的 Maven 项目中导入 FFMPEG 库?
- azure - Azure 日志分析简单饼图
- r - 删除百分比轴中的小数 - R
- dart - 固定ExtentScrollPhysics 颤振
- ionic-framework - Ionic 4 clearInput 图标颜色
- java - 无法将java.lang.String字段CustomersEntity.address设置为CustomersEntity,CustomerEntity中的地址字段有问题吗?
- winapi - 带有 MemExtendedParameterAddressRequirements 的 VirtualAlloc2 总是产生 ERROR_INVALID_PARAMETER
- c# - 如何使用 WMI/CimSession 停止远程计算机 Windows 服务?
- c# - 可以使用 if 语句在 NUnit TestCases 中定义共享变量吗?