首页 > 解决方案 > 如何使用 SQL 从较大的数据集中选择 x 的随机样本?

问题描述

有一个大约 5000 行的数据集,每行 5 列。每个 RowID,有四个维度 Date、Location、Department、Funding。下面列出了几行的示例。我正在查看生成的样本行的百分比,例如 5000 个中的 200 个。挑战在于让它成为四个维度的比例代表。这意味着,200 人样本上这四个维度的分层(合理地)与更大的 5000 人人口相同。

我已经运行了 partition by,order by 以选择随机百分比 - 但想看看是否有最佳和更好的方法。

RowID, Date     Location,  Department, Funding
1,     Jan 2018, Ohio,     Math,       Yes
2,     Jan 2018, New York, Math,       Yes
3,     Feb 2018, Ohio,     Engineering No
4,     Feb 2018, Arizona,  Math,       Yes
5,     Mar 2018, Ohio,     Engineering Yes

标签: sql-server

解决方案


推荐阅读