首页 > 解决方案 > Pyspark.sql:如何使用 python 删除空白空间并仅保留数据的特定部分

问题描述

这是我的桌子:Lat_Long

在此处输入图像描述

我只想保留标记的信息。

在此处输入图像描述

所以表格应该是这样的

在此处输入图像描述

如何使用 python 使用 pyspark sql 来实现这一点,并且列数据类型是字符串格式。

标签: pythonapache-sparkpysparkapache-spark-sql

解决方案


您可以使用split分割空间。使用正则表达式\s+拆分任意数量的空格。

import pyspark.sql.functions as F

result = df.select(*[F.split(i, r'\s+')[1].alias(i) for i in df.columns])

推荐阅读