首页 > 解决方案 > Python Spark - 如何在没有不同顺序的情况下删除集合中的重复元素?

问题描述

通过使用 .fliter(func),我得到了下面的输出。

My output:
[((2, 1), (4, 2), (6, 3)), ((2, 1), (4, 2), (6, 3)), ((2, 1), (4, 2), (6, 3))]

我需要的输出只有 3 个坐标。

My desired output:    
((2, 1), (4, 2), (6, 3))

知道如何删除重复集吗?我测试了'distinct.()',但由于集合中元素的顺序不同,它不起作用。

谢谢。

标签: python-3.xpyspark

解决方案


将您的输出分配为列表:

x= [((2, 1), (4, 2), (6, 3)), ((2, 1), (4,  2), (6, 3)), ((2, 1), (4, 2), (6, 3))]
y = list(set(x))
print(y[0])

比输出是: ((2, 1), (4, 2), (6, 3))


推荐阅读