python - 分析较大文件中的一列
问题描述
我正在使用熊猫。我正在尝试从一个较大的文件中读取一列名称。这个文件总共是 35GB,这让我的内核死了。因此,我只想阅读其中一列。然后我想“分块”这些数据,这样内核就不会死掉。由此,我需要按每个名称获取总和并找到计数最高的名称。以下是可能有用的:
import pandas as pd
data = pd.read_csv("/Users/Desktop/EQR_Data/EQR_Transactions_1.csv", low_memory=False)
我想从我的主文件中导入的列名:
'seller_company_name'
解决方案
有时你最好只使用命令行
如果您可以访问类似 unix 的环境,这就是 grep / sed/ awk / cut 在处理流时构建的目的
有关示例,请参见此处
另一种方法是拆分您的 csv 并对其进行批处理(由“,”分隔,取第一个零索引列)
cat some.csv | cut -d, -f1 | sort | uniq -c
推荐阅读
- javascript - 无法使用spring加载外部脚本js文件
- xampp - 错误:在 debian 10 中 EACCESS 权限被拒绝 VSCODE
- android - 向用户组发送 Firebase 推送通知
- c++ - 我是否正确测试了返回值优化?
- php - 如何防止用户使用 jQuery 在 maxlength 处输入值
- sql - sql查询oracle:希望根据另一个表中的值将列自定义为“是”或否
- java - JTree 键绑定
- python - Python ORM:最佳实践
- javascript - 如何格式化以 HH:MM:SS 格式给出的时间?
- angularjs - 如何从控制器AngularJs调用函数