parallel-processing - 从spark java中数据集的特定分区读取数据
问题描述
我想从数据集中的每个分区读取数据 spark java
loadedCompanyModelDf.foreachPartition(p -> {
Iterable<Row> rowIt = () -> p;
List<Row> objs = StreamSupport.stream(rowIt.spliterator(), true)
.filter(row -> row.size() > 0)
.collect(Collectors.toList());
});
其中loadedCompanyModelDf 是数据集。我想以数据集的形式访问每个分区中的数据。如何将列表转换为数据集任何人都可以为此提供任何输入吗?
解决方案
推荐阅读
- python - 在 N 维数组中查找最近的转换
- maven - 如何增加maven PermGen空间
- python - PyMC3(或 Theano)在采样时分配了过多的虚拟内存
- javascript - 清除输入文本失败
- android - 列表中包含 Jetpack 中项目的适合/包裹宽度的任何想法 compose
- css - Blazor 问题,关于基于属性的宽度百分比
- java - 如何在java中打印一个arraylist并删除它的重复项
- java - 如何将绘图图上的 x 和 y 坐标转换为 GUI 上的像素
- authlib - 使用 authlib 设置知名 url 的任何示例?
- google-sheets - IF 和 CountIF 公式,你能改变重复单元格的第一个值吗?