scala - Spark scala减少了RDD上可能的多重过滤？

问题描述

def isSmallerScore(value:Int): Boolean ={
  val const = 200
  if(value < const) true else false
}
val rdd = sc.parallelize(Seq(("Java", 100), ("Python", 200), ("Scala", 300)))
val result1: RDD[(String, Int)] = rdd.filter(x => isSmallerScore(x._2))
val result2: RDD[(String, Int)] = rdd.filter(x => !isSmallerScore(x._2))

从上面使用过滤器的代码中，我创建了两个 RDD。一个是分数较小的，另一个 RDD 是分数较高的。为了把它分开，我做了两次过滤操作。

是否可以在单个过滤器操作中创建？如何减少另一个过滤器操作以找出结果（ result1 或 result2 ）

标签： scalaapache-sparkrdd

它不是像 Informatica BDM、Talend、Pentaho 等的 ETL。您可以在其中以图形方式创建多个并行运行的管道（分支）。

您需要cacherdd 和 filter 两次才能获得 2 个 RDD。

scala - Spark scala减少了RDD上可能的多重过滤？

问题描述

解决方案

推荐阅读