首页 > 解决方案 > 基于计数列对熊猫数据框进行下采样

问题描述

我有成千上万的数据框,如下所示,尽管更大(1000000 行,100 列)。

data = pd.DataFrame({'cols1':[4, 5, 5, 4, 321, 32, 5],
                     'count':[45, 66, 6, 6, 1, 432, 3],
                     'Value':['Apple', 'Boy', 'Car', 'Corn', 'Anne', 'Barnes', 'Bayesian']})

我想从这个数据帧中随机抽样并制作一个新的数据帧,这样计数的总和应该只等于 N。这意味着我想根据计数值作为权重随机抽样,并用这个新的数据帧制作一个新的数据帧重采样数据,使得计数总和为 N。

相对比例应保持大致相同,重采样时的任何值都不应超过原始计数值的计数。cols1(或除 Value 和 count 之外的任何其他列)中的值应保持不变。

例如,如果 N 是 50,它可能看起来像:

pd.DataFrame({'cols1':[4, 5, 5, 4, 321, 32, 5],
                     'count':[4, 7, 1, 1, 0, 37, 0],
                     'Value':['Apple', 'Boy', 'Car', 'Corn', 'Anne', 'Barnes', 'Bayesian']})

如何才能做到这一点?

效率是关键,否则我可以根据计数扩展数据框并随机抽样而不进行替换,然后将其合并在一起。

谢谢,杰克

标签: pythonpandas

解决方案


使用多项式采样,这相对容易。

import numpy as np
from itertools import chain

def downsample(df, N):
    prob = df['count']/sum(df['count'])
    df['count'] = list(chain.from_iterable(np.random.multinomial(n = N, pvals = prob, size = 1)))
    df = df[df['count'] != 0]
    return df

对于 OP 的例子:

downsample(data, 50)

返回:

    Value  cols1  count
1     Boy      5      1
3    Corn      4     16
5  Barnes     32     33

推荐阅读