python - 如何在每个 Spark Dataframe 分区中使用 GROUPED_MAP pandas udf?
问题描述
我想使用 pandas UDF 来加速用户定义的函数。pandas udf 的类型我对获取 pandas DataFrame 作为输入并返回 Pandas DataFrame(PandasUDFType.GROUPED_MAP)的类型感兴趣。
然而,似乎这些 pandas UDF 必须插入到groupby().apply()
框架中,而在我的情况下,我只是想将 pandas UDF 应用于 Pyspark Dataframe 的每个分区,想法是将每个分区转换为每个执行程序中的本地 Pandas Dataframe . 事实上,我想避免使用任何类型的 groupby,因为这会导致一些数据重新洗牌。
有没有办法实现这一点,也许通过明确说 groupby 应该通过分区或类似的东西来完成?
解决方案
推荐阅读
- java - org.springframework.beans.factory.BeanCreationNotAllowedException
- java - Java - 向接口实现添加方法
- java - 我正在尝试返回数组的详细信息,但我正在返回零
- c++ - 如何在源文件 (.cpp) 中包含 SDL2
- c++ - 从线程运行函数时如何返回值
- javascript - 如何让 javascript 等待我的变量获取数据,然后显示数据。我正在使用 socket.io
- sql - SQL中基于多表两列的计数函数和分组函数
- azure - 根据 Azure 服务总线中的验证程序,远程证书无效
- ruby-on-rails - 如何最好地在基于 Rack 的应用程序中定义 ENV 变量?
- python - 我不知道如何将用户输入作为字符串处理