首页 > 解决方案 > 如何将 RDD 转换为 POJO 的另一个 Java 列表?

问题描述

输入是一个RDD,期望的输出是 Java 列表POJO

从 SQL 中给出类似的例子:

select col1, col2, col3, sum(col4) from table
group by col1, col2, col3;

作为 Java Spark 的新手,到目前为止已经能够达到 tuple2 :

JavaPairRDD<Tuple2<Integer, String>, Integer> pairRDD = 
    rdd.mapToPair(e -> new Tuple2<>(new Tuple2<>(e.getCol1(), e.getCol2()), e.getCol3()))
       .reduceByKey((v1, v2) -> v1 + v2);

如何使用它PairRDD来创建POJO具有键属性和总和值的 Java 列表?

标签: javaapache-spark

解决方案


推荐阅读