首页 > 解决方案 > 如何从pyspark的列中删除连字符?

问题描述

我想-从 pyspark 数据框的列中删除所有元素。

所以我有:

111-345-789   
123654980   
144-900-888  
890890890  
....

我想有一列是:

111345789   
123654980   
144900888   
890890890  

标签: pythonapache-sparkpysparkapache-spark-sql

解决方案


您可以使用regexp_replace

df.withColumn("col", F.regexp_replace("col", "-", "")).show()

#+---------+
#|      col|
#+---------+
#|111345789|
#|123654980|
#|144900888|
#|890890890|
#+---------+

或者replace

df.withColumn("col", F.expr("replace(col, '-', '')")).show()

推荐阅读