首页 > 解决方案 > 如何在不重新分配变量的情况下在 for 循环中进行连续连接?

问题描述

我正在使用pyspark.

我在for循环中这样做:

for variable in variables:
    df1 = df1.join(df2,variable,'left_outer')

这会导致df1多次重新分配。这是一个问题吗?

如何在不编写的情况下链接操作

df1.join(df2,variables[0])
.join(df2,variables[1])
.join(df2,variables[2])
...

编辑

使用functools.reduce()不是一种选择,因为它会导致更差的性能,如此处所回答

标签: pythonpyspark

解决方案


推荐阅读