python - 基于 MULTIPLE 给定分布的 DataFrame 样本
问题描述
我已经看到了这篇文章的问题和答案:Sampling a dataframe based on a (one) given distribution
我正在寻找对此答案的修改,以便函数允许基于多个列/分布进行采样。
示例:我想从下表中取样:
col1 | col2 | 数据1 | 数据2 |
---|---|---|---|
一个 | 一个 | 1 | 5 |
一个 | 乙 | 2 | 4 |
乙 | 乙 | 3 | 3 |
乙 | C | 4 | 2 |
C | C | 5 | 1 |
... | ... | ... | ... |
但是使用此表中的权重(使用 GroupBy 创建):
col1 | col2 | 数数 |
---|---|---|
一个 | 一个 | 6 |
一个 | 乙 | 7 |
乙 | 乙 | 8 |
乙 | C | 7 |
C | C | 6 |
有没有一种更优雅的方法,然后将 col1 和 col2 组合在一个新列中并按新列分组?
解决方案
推荐阅读
- java - 使用 while 循环和 if 语句获取随机生成的数字中每个数字的频率
- angular - 在 Angular 8 中动态地将表单字段添加到反应式表单中
- javascript - 如何在右侧显示多个按钮?
- javascript - javascript匹配隐式变量
- python - 当我迭代它时,无法在 Pandas 数据帧上执行和设置行操作
- javascript - 使用元素ui时如何将计算值放入表格道具中
- javascript - 根据索引从数组中删除对象
- mysql - 删除与 MySQL 中前一行没有区别的行
- sql - 聚合可能不会出现在 WHERE 子句中,除非它位于 HAVING 子句中包含的子查询中
- mysql - 如何在同一个表中选择多行,其中其他行的主键位于单独的列中?