scala - Spark RDD join-operation end with stackOverFlow
问题描述
使用 Scala,我正在尝试加入以下类型的 2 个 RDD:
case class Posting(postingType: Int, id: Int, acceptedAnswer: Option[Int], parentId: Option[QID], tags: Option[String]) extends Serializable
以及以下用于实现的类型定义:
type Question = Posting
type Answer = Posting
type QID = Int
在第一阶段,我过滤 RDD[Posting] 以隔离问题和答案子集,依靠使用 postTypeId == 1 来识别问题。id == QID 的答案具有 (a) postTypeId == 2 和 (b) parentId == QID。
然后我将结果映射到键值对,并尝试加入结果:
val answersSeq = postings.filter(p => p.postingType == 2)
val answersMap = answersSeq.map(a => (a.parentId.get, a))
val questionsSeq = postings.filter(p => p.postingType == 1)
val questionsMap = questionsSeq.map(p => (p.id, p))
val resultMap = questionsMap.join(answersMap)
对于加入操作,我收到“StackOverFlow”异常。
我怀疑,这与 Option[QID] 有关。如果是这样,我还不知道如何解决它。还是有其他原因?
解决方案
推荐阅读
- r - 匹配两个数据框列中的字符串并创建一个新列
- ruby - 我遇到了这个关于保管箱的代码
- python - 如何为模型十进制字段django指定最大值?
- tidyeval - 如何在函数中执行 fct_drop(使用 tidy eval)?
- ios - 将 Cocoapod 添加到 Cocoapod
- c# - 如何在新选项卡或窗口中打开 PDF 文件,而不是使用 C# 和 ASP.NET MVC 下载它?
- javascript - 使用 HTML/CSS/Javascript 创建带有数据侧视图的图像网格
- r - 如何在R中的csv文件中逐行循环
- android - Android Spinner 跳转到之前选择的位置
- amazon-web-services - 用于创建 s3 存储桶并在 s3 存储桶中添加上传文件的 AWS API