python-3.x - 如何从元组列表优化 pyspark 数据框的创建
问题描述
import itertools
l1 = [1,2,3,4,5]
l2 = list(itertools.combinations(l1, 2))
print(l2)
newdf = spark.createDataFrame(l2,['record1', 'record2'])
display(newdf)
这是我尝试过的代码,它可以工作但需要很长时间(例如,当 l1 的大小为 5000 万时)。有没有更好和优化的方法来使用 pandas 或 pyspark 做到这一点?
解决方案
推荐阅读
- mysql - MySQL 8.0 行长度(8,126 对 65,535)
- visual-c++ - LINK:将静态库链接到 C++ 项目时出现致命错误 LNK1000
- dc.js - 使范围图缩放而不过滤
- apt - 你如何创建一个 apt-get 包
- node.js - “npm”无法识别
- flutter - 我可以用百分比而不是像素来定义 Flutter 小部件的宽度吗?
- python - Discord.py 异步函数不提供任何输出,也不做任何事情
- javascript - 如何将数组对象转换为对象数组?
- sql - 数据选择/行选择
- python - 检查是否在另一个字符串中找到一个字符串时,如何限制 Python if-in 语句的结果?