python - 熊猫随机读取 df
问题描述
我最近在 Kaggle 上尝试了这个多重分类问题,这些是value_counts()
标签:
2 1661772
4 1613640
8 1471098
5 1389385
9 1361200
3 1337218
7 1325075
6 1316784
10 1250655
1 1240152
0 1240152
现在,我知道它不平衡,所以首先我需要知道如何平衡它
我还需要分块读取文件,因为我只有 16 GB 的内存,而且还不够,所以我使用了:
data_chunks = pd.read_csv(filename, chunk_size=1024)
data = next(iter(data_chunks))
并且变量data
包含1024个元素,所有标签都是零,这对零构成了严重威胁,因为我的模型只是训练为所有内容都返回零所以我需要知道如何随机选择read_csv()
函数中的块
提前致谢
PS:我刚开始使用现实生活中的数据集而不是玩具数据集scikit-learn
,如果我犯了任何菜鸟错误,请见谅
解决方案
嘿,你可以使用 sample(frac = 0.20) 这将从你的 csv 中随机获取 20% 的数据,你可以进行相应的调整
data_chunks = pd.read_csv(filename).sample(frac = 0.20)
推荐阅读
- c# - C# 实体 [AllowHtml] 不适用于其他 ModelState 验证错误
- python-3.x - 使用 Docker 容器实现 KCL
- azure - 测试执行完成后,结果未在 Azure 管道中发布
- wordpress - 从 URL 更改为子域
- ionic-framework - “离子服务”给出错误“错误:没有可用于依赖类型的模块工厂:ContextElementDependency”
- android - imageView 的动画(淡入淡出)
- java - 如何使用 Cassandra 2.1.9 运行 Spring Data Cassandra 2.2.1?
- java - 是否可以为 @ManyToOne 加入提供实体名称目标
- java - JavaFX - 模块化和非模块化之间的区别
- swift - 如何获取用户正在输入的内容并将其快速显示在标签上