首页 > 解决方案 > 从spark java中数据集的特定分区读取数据

问题描述

我想从数据集中的每个分区读取数据 spark java

 loadedCompanyModelDf.foreachPartition(p -> {
      Iterable<Row> rowIt = () -> p;
      List<Row> objs = StreamSupport.stream(rowIt.spliterator(), true)
                            .filter(row -> row.size() > 0)
                            .collect(Collectors.toList());

 });

其中loadedCompanyModelDf 是数据集。我想以数据集的形式访问每个分区中的数据。如何将列表转换为数据集任何人都可以为此提供任何输入吗?

标签: parallel-processingspark-java

解决方案


推荐阅读