首页 > 解决方案 > 如何在 PySpark 中按行将 spark df(大 df)拆分为多个 dfs?

问题描述

我们在 python 中有一个 split 函数df_split = np.array_split(df,2),它将 df 按行拆分为多个 df。我们如何才能为 spark df 实现相同的目标?

标签: pythonapache-sparkpyspark

解决方案


简单的方法是在某些条件下进行过滤。

first_half = my_df.filter(condition)
second_half = mydf.filter(~condition)

您可能需要在框架中添加另一个字段。你没有说你希望它如何分割。如果你想把它分成两半,比如每隔一行,那么你可以添加一个行号,然后条件是行号是偶数(使用模或其他东西。


推荐阅读