python - 具有分层类别的样本
问题描述
我有一个包含 100 万条数据的集合。
在文档中有两个字段:
- 一个可以取 10 个值的字符串(我们称之为 A)
- 一个int(我们称之为B)
我想要一个包含 25% 的数据的样本,该样本符合这两个规则:
1 - A 在样本中的分布应该与在原始集合中的分布相同
2 - 对于此特定分布,选择 B 较大的数据
解决方案
推荐阅读
- c# - 如何在 C# Discord.net 中读取发布的文件?
- java - getAttribute 或 getText
- django - Django:计算数据库中今天日期和日期之间的差异时出现问题
- ssas - 在 SSAS 中显示自联接表中的父值
- visual-studio-code - 如何在 VSCode 中完全关闭隐式网络使用?
- java - 在 JSONAssert java 中使用 REGEX 验证 JSON 字符串
- python-3.x - 错误:tensorflow/contrib/nccl/kernels/nccl_manager.cc:273 检查失败:result==ncclSuccess (2 vs 0)系统错误
- php - 如果无法删除文件,请稍候再试
- angular - 如何处理使用 switchMap RxJS 时可能返回空的 observable
- makefile - Makefile 执行了意外的行为