python - 如何在 PySpark 中按行将 spark df(大 df)拆分为多个 dfs?
问题描述
我们在 python 中有一个 split 函数df_split = np.array_split(df,2)
,它将 df 按行拆分为多个 df。我们如何才能为 spark df 实现相同的目标?
解决方案
简单的方法是在某些条件下进行过滤。
first_half = my_df.filter(condition)
second_half = mydf.filter(~condition)
您可能需要在框架中添加另一个字段。你没有说你希望它如何分割。如果你想把它分成两半,比如每隔一行,那么你可以添加一个行号,然后条件是行号是偶数(使用模或其他东西。
推荐阅读
- ruby-on-rails - 为什么白名单网址 HERE 地图 api 仍然阻止我输入的网址
- c# - 使用 lambda 表达式打印通用数组的通用方法
- nuxt.js - lottie-vue.js 在第一个周期没有正确加载动画
- sql - 查找用户及其缺失值
- java - 添加约束,使每个文本视图都在另一个之下
- init - 用swift写一个String init
- cmake - Config.cmake 文件的 CMake 路径
- scala - NoClassDefFoundError:Storm jar 的 kafka/api/OffsetRequest
- c# - `ListView.ItemContainerStyle` 中的`ContextMenu` 命令绑定不起作用
- sql - 使用案例语句 SQL Server 分组依据