首页 > 解决方案 > 如何制作小写并删除pyspark中的原始列?

问题描述

我有一个非常大的数据测试。包含文本。我想让它全部小写我这样做了:

df1=df.select("*", lower(col('name')))

但它创建了一个名为 lower(name) 的新列。我不想保留上一栏。所以我删除了这个:

df2=df1.drop(*'title_split')

但是删除它需要很多时间。我怎样才能让它更快?我可以让它小写而不保留前一个吗?

标签: apache-sparkpysparkapache-spark-sql

解决方案


您可以使用withColumn替换旧列:

df1 = df.withColumn('name2', lower(col('name'))).drop('name')

推荐阅读