首页 > 解决方案 > 如何从元组列表优化 pyspark 数据框的创建

问题描述

import itertools

l1 = [1,2,3,4,5]
l2 = list(itertools.combinations(l1, 2))
print(l2)

newdf = spark.createDataFrame(l2,['record1', 'record2'])
display(newdf)

这是我尝试过的代码,它可以工作但需要很长时间(例如,当 l1 的大小为 5000 万时)。有没有更好和优化的方法来使用 pandas 或 pyspark 做到这一点?

标签: python-3.xpandaspyspark

解决方案


推荐阅读