首页 > 解决方案 > Spark RDD join-operation end with stackOverFlow

问题描述

使用 Scala,我正在尝试加入以下类型的 2 个 RDD:

case class Posting(postingType: Int, id: Int, acceptedAnswer: Option[Int], parentId: Option[QID], tags: Option[String]) extends Serializable  

以及以下用于实现的类型定义:

 type Question = Posting
 type Answer = Posting
 type QID = Int

在第一阶段,我过滤 RDD[Posting] 以隔离问题和答案子集,依靠使用 postTypeId == 1 来识别问题。id == QID 的答案具有 (a) postTypeId == 2 和 (b) parentId == QID。

然后我将结果映射到键值对,并尝试加入结果:

val answersSeq = postings.filter(p => p.postingType == 2)
val answersMap = answersSeq.map(a => (a.parentId.get, a))
val questionsSeq = postings.filter(p => p.postingType == 1)
val questionsMap = questionsSeq.map(p => (p.id, p))
val resultMap = questionsMap.join(answersMap)

对于加入操作,我收到“StackOverFlow”异常。

我怀疑,这与 Option[QID] 有关。如果是这样,我还不知道如何解决它。还是有其他原因?

标签: scalaapache-sparkrdd

解决方案


推荐阅读