首页 > 解决方案 > 使用 Java 在 Spark 中进行映射

问题描述

我有一个文件名myFile,格式如下:

1,A,2,B
1,A,3,C
2,B,4,D

我想将每行的第二个索引值映射到行本身:

A -> 1,A,2,B
A -> 1,A,3,C
B -> 2,B,4,D

如何使用 Spark Java 实现这一目标?

标签: apache-sparkhadoopmapreduce

解决方案


这就是我实现它的方式

JavaPairRDD<String, String> pairs = myFile.mapToPair(s->new Tuple2<>(s.split(",")[1], s));

推荐阅读