首页 > 解决方案 > 如何在 pyspark 中对组进行采样?

问题描述

我有一个包含大约 > 1M 组的数据框,每个组包含大约 100 条记录(行)。如何根据 pyspark 中的不同组进行采样,以便所选组仍然具有完整的行?

一个小得多的例子:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  2  |0.1|
|  2  |0.5|
|  2  |0.3|
|  3  |0.5|
|  4  |0.8|
|  4  |0.5|
+-----+---+

我想进行采样,以便如果选择了第 1 组和第 3 组,我可以从他们那里获得完整的记录:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  3  |0.5|
+-----+---+

标签: pyspark

解决方案


推荐阅读