python-2.7 - 如何有效地从 Python 中的一个非常大的集合中获取随机样本
问题描述
我正在尝试对可用作特定数据集年收入的数字进行抽样。我有以下代码在内存中爆炸并且系统挂起
np.random.choice(xrange(750000, 1000000000), size=254)
然后我将代码更改为
np.random.choice(xrange(75, 100000), size=254) * 10000
该代码可以在内存较少的情况下正常工作,但是。我真的不确定是否会影响分布中的采样。
我能以任何有效的方式做到这一点。
解决方案
推荐阅读
- flutter - ChangeNotifer 类上不那么冗长的成员变量?
- c# - 从 c++ dll 中的线程回调更新 WPF 图像源
- jquery - jQuery .load() 仅在 iPhone 中不起作用
- java - Spring Boot - Jpa Distinct 和 Pageable
- d3.js - 努力将 .shp 转换为可用的 .json 文件
- scala - 将 JSON 隐式验证为列表或类型
- git - 从存储库的所有分支和历史记录中删除 Git LFS
- c# - 在 c# 中执行存储过程时,sys.dm_exec_procedure_stats 表显示不正确的执行计数
- tsql - TSQL 调试年龄公式
- google-maps - 用于 Flutter 的 Google Maps 中多边形的 onLongPress 手势