pandas - Python pandas在chunksized文件上的唯一值
问题描述
嗨,我有巨大的 tsv 文件需要使用,所以我需要对其进行分块,所以我使用了这样的代码
MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
MyList.append(chunk)
然后我想在其中一个列(wiki)中搜索唯一值我唯一的想法就是这段代码
MyList[0].wiki.unique()
使用这段代码有点问题,因为一次我只能搜索一个块(其中有 43 个),然后在不同的块中有重复,有没有人知道如何在这个块大小的文件上使用 .unique 而不是在一个块上时间?
解决方案
看看这是否能解决您的问题。
unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
unique_values = unique_values | set(chunk.wiki.unique())
推荐阅读
- sql - ODBC 调用失败,无法绑定多部分标识符“dbo.Contenders.PersonID”
- tensorflow - 将模型转换为 TFLite 格式得到“检查失败:is_rnn_state_array”
- java - 什么时候无事可做,java中没有更新?这可能是一个错误?
- google-sheets - Google Sheets 以文本格式解析数学表达式
- report - 如何避免范围报告不覆盖html文件名
- amazon-web-services - 如何通过“复制”到同一个键来更改 S3 对象的设置?
- javascript - 仅 Outlook 桌面上的 Web 加载项加载问题
- node.js - ExpressJS 设置 SEO 友好的路由
- c# - filesystemwatcher 等待文件完成写入
- python - 对来自多个 DataFrame 的列求和