首页 > 解决方案 > 如何在每个 Spark Dataframe 分区中使用 GROUPED_MAP pandas udf?

问题描述

我想使用 pandas UDF 来加速用户定义的函数。pandas udf 的类型我对获取 pandas DataFrame 作为输入并返回 Pandas DataFrame(PandasUDFType.GROUPED_MAP)的类型感兴趣。

然而,似乎这些 pandas UDF 必须插入到groupby().apply()框架中,而在我的情况下,我只是想将 pandas UDF 应用于 Pyspark Dataframe 的每个分区,想法是将每个分区转换为每个执行程序中的本地 Pandas Dataframe . 事实上,我想避免使用任何类型的 groupby,因为这会导致一些数据重新洗牌。

有没有办法实现这一点,也许通过明确说 groupby 应该通过分区或类似的东西来完成?

标签: pythonpandasdataframepyspark

解决方案


推荐阅读