sql-server - 如何使用 SQL 从较大的数据集中选择 x 的随机样本?
问题描述
有一个大约 5000 行的数据集,每行 5 列。每个 RowID,有四个维度 Date、Location、Department、Funding。下面列出了几行的示例。我正在查看生成的样本行的百分比,例如 5000 个中的 200 个。挑战在于让它成为四个维度的比例代表。这意味着,200 人样本上这四个维度的分层(合理地)与更大的 5000 人人口相同。
我已经运行了 partition by,order by 以选择随机百分比 - 但想看看是否有最佳和更好的方法。
RowID, Date Location, Department, Funding
1, Jan 2018, Ohio, Math, Yes
2, Jan 2018, New York, Math, Yes
3, Feb 2018, Ohio, Engineering No
4, Feb 2018, Arizona, Math, Yes
5, Mar 2018, Ohio, Engineering Yes
解决方案
推荐阅读
- r - 在计算中使用滞后时的未知或未初始化列
- windows - 使用 cmd 标题仅从任务列表中获取 PID
- python - 嵌套数组中带有浮点数的点积
- javascript - moment.js 将当前日期应用于附加项目
- text - 我有这个文本文件。我认为它看起来像 ASCII,但显然不是。尝试解码它,但没有运气。关于如何解码它的任何线索?
- php - 在php中将字符串转换为顺序数组
- javascript - React 组件在屏幕上打印了两次
- c++ - unicode 字符的相等性
- node.js - 使用 vue-cli 遇到“无法推断解析器”错误
- php - Laravel 连接远程 mysql 数据库