首页 > 解决方案 > 使用 pyspark 在日期范围上运行 for 循环

问题描述

我有一个数据框,其中一列包含一个日期范围,从2019-01-01格式2019-02-01所在的位置:
yyyy-mm-dd有没有一种方法可以每天循环遍历数据框,选择一天,然后按该天过滤。我想对过滤后的数据框进行一些计算,因为每天都有多条记录。

由于这是分布式计算,我遇到的一种方法是row_number()在整个数据帧的窗口上插入行号列,然后运行 ​​for 循环。但我觉得这会适得其反,因为我会将整个数据框强制转换为单个节点,而我的数据框有数百万行。

有没有办法在不使用窗口函数的情况下在 pyspark 数据框中进行 for 或 while 循环?

非常欢迎您的专家见解!谢谢你

标签: pysparkpyspark-sqlpyspark-dataframes

解决方案


推荐阅读