首页 > 解决方案 > 具有分层类别的样本

问题描述

我有一个包含 100 万条数据的集合。

在文档中有两个字段:

我想要一个包含 25% 的数据的样本,该样本符合这两个规则:

1 - A 在样本中的分布应该与在原始集合中的分布相同

2 - 对于此特定分布,选择 B 较大的数据

标签: pythondatabasemongodbnosqlpymongo

解决方案


推荐阅读