首页 > 解决方案 > 如何有效地从 Python 中的一个非常大的集合中获取随机样本

问题描述

我正在尝试对可用作特定数据集年收入的数字进行抽样。我有以下代码在内存中爆炸并且系统挂起

np.random.choice(xrange(750000, 1000000000), size=254)

然后我将代码更改为 np.random.choice(xrange(75, 100000), size=254) * 10000

该代码可以在内存较少的情况下正常工作,但是。我真的不确定是否会影响分布中的采样。

我能以任何有效的方式做到这一点。

标签: python-2.7numpy

解决方案


推荐阅读