首页 > 解决方案 > 熊猫随机读取 df

问题描述

我最近在 Kaggle 上尝试了这个多重分类问题,这些是value_counts()标签:

2     1661772
4     1613640
8     1471098
5     1389385
9     1361200
3     1337218
7     1325075
6     1316784
10    1250655
1     1240152
0     1240152

现在,我知道它不平衡,所以首先我需要知道如何平衡它

我还需要分块读取文件,因为我只有 16 GB 的内存,而且还不够,所以我使用了:

data_chunks = pd.read_csv(filename, chunk_size=1024)
data = next(iter(data_chunks))

并且变量data包含1024个元素,所有标签都是零,这对零构成了严重威胁,因为我的模型只是训练为所有内容都返回零所以我需要知道如何随机选择read_csv() 函数中的块

提前致谢

PS:我刚开始使用现实生活中的数据集而不是玩具数据集scikit-learn,如果我犯了任何菜鸟错误,请见谅

标签: pythonpandasdataframe

解决方案


嘿,你可以使用 sample(frac = 0.20) 这将从你的 csv 中随机获取 20% 的数据,你可以进行相应的调整

data_chunks = pd.read_csv(filename).sample(frac = 0.20)

推荐阅读