首页 > 解决方案 > 基于 MULTIPLE 给定分布的 DataFrame 样本

问题描述

我已经看到了这篇文章的问题和答案:Sampling a dataframe based on a (one) given distribution

我正在寻找对此答案的修改,以便函数允许基于多个列/分布进行采样

示例:我想从下表中取样:

col1 col2 数据1 数据2
一个 一个 1 5
一个 2 4
3 3
C 4 2
C C 5 1
... ... ... ...

但是使用此表中的权重(使用 GroupBy 创建):

col1 col2 数数
一个 一个 6
一个 7
8
C 7
C C 6

有没有一种更优雅的方法,然后将 col1 和 col2 组合在一个新列中并按新列分组?

标签: pythondataframefunctionsampling

解决方案


推荐阅读