首页 > 解决方案 > 分析较大文件中的一列

问题描述

我正在使用熊猫。我正在尝试从一个较大的文件中读取一列名称。这个文件总共是 35GB,这让我的内核死了。因此,我只想阅读其中一列。然后我想“分块”这些数据,这样内核就不会死掉。由此,我需要按每个名称获取总和并找到计数最高的名称。以下是可能有用的:

import pandas as pd

data = pd.read_csv("/Users/Desktop/EQR_Data/EQR_Transactions_1.csv", low_memory=False)

我想从我的主文件中导入的列名:

'seller_company_name'

标签: pythonpandas

解决方案


有时你最好只使用命令行

如果您可以访问类似 unix 的环境,这就是 grep / sed/ awk / cut 在处理流时构建的目的

有关示例,请参见此处

另一种方法是拆分您的 csv 并对其进行批处理(由“,”分隔,取第一个零索引列)

cat some.csv | cut -d, -f1 | sort | uniq -c

推荐阅读