pyspark - 如何在 pyspark 中对组进行采样?
问题描述
我有一个包含大约 > 1M 组的数据框,每个组包含大约 100 条记录(行)。如何根据 pyspark 中的不同组进行采样,以便所选组仍然具有完整的行?
一个小得多的例子:
+-----+---+
|group| x |
+-----+---+
| 1 |0.1|
| 1 |0.2|
| 2 |0.1|
| 2 |0.5|
| 2 |0.3|
| 3 |0.5|
| 4 |0.8|
| 4 |0.5|
+-----+---+
我想进行采样,以便如果选择了第 1 组和第 3 组,我可以从他们那里获得完整的记录:
+-----+---+
|group| x |
+-----+---+
| 1 |0.1|
| 1 |0.2|
| 3 |0.5|
+-----+---+
解决方案
推荐阅读
- amazon-web-services - 如何在同一 AWS EB 应用程序中托管基于不同版本的路由
- elasticsearch - ElasticSearch 日期范围查询不适用于自定义日期格式
- javascript - 从我的 React 组件中的文本中打印字母,就像旧的视频游戏一样
- ios - 无法添加钥匙串项。错误 - 使用 KeychainItemWrapper 更改标识符后出现 25299?
- javascript - 我们可以同时使用 `export default` 和 `module.exports` 吗?
- angular - 为不同的 REST / WebServices 配置不同的 Angular 6 HttpClient 标头
- jquery - jQuery 选择菜单 onchange
- forms - 表单在元素 UI 中缓存错误的字段
- sql-server - 在 spring 中使用自定义 MSSQL 查询
- php - 将php curl转换为curl