pyspark - 在 pyspark 中将集合聚合成更大的集合
问题描述
在我的数据集中,我有一列A
是整数列表,表示一组整数。我想将所有这些集合聚合到代表联合的集合中(我猜仍然表示为列表)。有没有“简单”的方法来做到这一点?我所做的是:
agg(array_distinct(flatten(collect_list("A")))
但这似乎效率低下,因为似乎在某些时候,内存中会出现包含所有重复项的完全扁平化列表
解决方案
推荐阅读
- c# - 将 .NET Core 从 2.2 迁移到 3.1
- c# - 我的 web.config 值中有自定义会话状态,因为我已经加密了 sqlConnectionstring,但是在运行我的 Web 应用程序时出现错误
- node.js - 如何在nest.js DTO中同时允许大写和小写
- reactjs - 情感 - serializedStyles 不是 dom 风格
- apache-kafka - 卡夫卡消费者:最大消费率
- spring-boot - Spring Boot application.yaml 变量
- flutter - 如何在颤动中更新 GridView.builder 中的 Widget
- elixir - 我在 elixir 中遇到编译器错误,我该如何解决以下错误?
- python - python输入函数不显示实际的输入窗口
- javascript - 是否可以在本地主机上使用 .htaccess 文件?