首页 > 解决方案 > 过滤 PySpark 数据框会弄乱顺序

问题描述

有谁知道为什么会这样?

在此处输入图像描述

当我过滤它时:

在此处输入图像描述

编辑:这就是我添加最后两列的方式。在我看来,因为我使用 pandas_udf 生成最后两列,所以有些疯狂,而我可以毫不费力地过滤前四列,这是我使用普通 udf 构建的。

@pandas_udf('string', PandasUDFType.SCALAR)
def blocking(ids,x,y):
....
return pd.Series(final)

df4 = df3.withColumn('blocking_index', \
blocking(df3.id,df3.ratepayer,df3.CharityName))

标签: apache-sparkpysparkapache-spark-sqlpyspark-sql

解决方案


推荐阅读