首页 > 解决方案 > Python pandas在chunksized文件上的唯一值

问题描述

嗨,我有巨大的 tsv 文件需要使用,所以我需要对其进行分块,所以我使用了这样的代码

MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
    MyList.append(chunk)

然后我想在其中一个列(wiki)中搜索唯一值我唯一的想法就是这段代码

MyList[0].wiki.unique()

使用这段代码有点问题,因为一次我只能搜索一个块(其中有 43 个),然后在不同的块中有重复,有没有人知道如何在这个块大小的文件上使用 .unique 而不是在一个块上时间?

标签: pandasuniquechunks

解决方案


看看这是否能解决您的问题。

unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
    unique_values = unique_values | set(chunk.wiki.unique())

推荐阅读