pyspark - 使用 pyspark 在日期范围上运行 for 循环
问题描述
我有一个数据框,其中一列包含一个日期范围,从2019-01-01
格式2019-02-01
所在的位置:
yyyy-mm-dd
有没有一种方法可以每天循环遍历数据框,选择一天,然后按该天过滤。我想对过滤后的数据框进行一些计算,因为每天都有多条记录。
由于这是分布式计算,我遇到的一种方法是row_number()
在整个数据帧的窗口上插入行号列,然后运行 for 循环。但我觉得这会适得其反,因为我会将整个数据框强制转换为单个节点,而我的数据框有数百万行。
有没有办法在不使用窗口函数的情况下在 pyspark 数据框中进行 for 或 while 循环?
非常欢迎您的专家见解!谢谢你
解决方案
推荐阅读
- javascript - 在 Redux 中使用动作创建器的主要好处是什么?
- c# - Teams 中用于 botframework 身份验证的 AAD 版本
- node.js - 使用 mongoose 查询一组嵌入式文档
- reactjs - 如果 Gatsby 发生错误,如何省略页面
- pipe - 尾巴 | gzip 在尾部后给出的文件长度与 gzip 不同
- flutter - Flutter Web 的文件夹选择器?
- dynamics-crm - 导入文件动态CRM
- angular - 修补表单时,控件上的更改检测如何工作?
- javascript - 用于传递颜色的 React 道具
- ignite - 预写缓存导致 CacheWriterException